14

科学研究におけるデジタル革新とデータ駆動型研究

昨今のデジタル革新には目覚ましいものがあり、ウィズコロナの時代においては欠かせないものとなりつつあります。デジタル革新、あるいはデジタルトランスフォーメーション(DX)と一言で言っても、そこには、データベースやネットワークなどの情報基盤、スーパーコンピューター(スパコン)など多様な要素が含まれており、さらにこれらが組み合わって日々進歩し続けています。新型コロナウイルス感染症対策として、スパコン「富岳」を用いたくしゃみなどの飛沫拡散シミュレーションの結果をニュースなどで見かけた方は多いと思いますが、スパコンは治療薬候補の絞り込みなどにも使用されています。このように、新しい技術を活用した科学研究の手法や見せ方が浸透しつつあると言えるでしょう。日本でも、総合科学技術・イノベーション会議基本計画専門調査会での国家戦略の議論にオープンサイエンスと研究開発DXに関する施策が盛り込まれています。

データ駆動型研究の登場

科学研究におけるデジタル革新が進むにつれ、事前に仮説を立てることをせずにデータを収集し、得られたデータを分析した上で研究を進める手法「データ駆動型(data driven) 」が登場してきました。これは、従来の仮説を立てた上でその仮説を検証するために実験・研究を進める仮説駆動型(hypothesis driven)に対し、事前に仮説を立てずに大量のデータを集め、分析した上で研究を進めるものです。近年の計算機能力の劇的な向上に負うところが大きいと言えますが、スマートフォンやオンラインネットワーク経由で情報を収集し、その大量データ(ビッグデータ)をスパコンで解析させることで研究成果を導くような研究手法です。この新しい科学的手法の促進が社会貢献につながることも増えてきています。

ライフサイエンスにおけるデータ利用とデータ駆動型研究

新型コロナウイルス感染症の拡大により、ライフサイエンスにおけるデータの利用がさらに進みました。ゲノムシーケンシング(ゲノム解析)、生物医学的画像処理、医療用IoTデバイスの技術進歩などにより多くのデータが得られています。しかし、膨大なデータから有意義な結論を導き出すためには、科学的知見に基づき、さまざまなデータを処理しなければなりません。ライフサイエンスでは、よりリスクの少ない製品をより安く、より早く、しかも安全に提供しなければなりません。医薬品の研究開発でデータ駆動型アプローチを取ることは、疾患や患者を理解し、より効果の高い可能性を持つ治療法を特定し、新薬を開発し、市場に投入するまでの時間を短縮するのに役立ちます。研究論文・文献、臨床データなどを俯瞰的に見つつ、リアルタイムで医薬品開発研究プロセスに組み込むことを可能とするのです。

ライフサイエンス研究の成果は、医薬品の開発、医療診断、予防および治療など幅広い分野に利用されています。技術革新によりゲノムシーケンシングの速度は飛躍的に速くなり、そのコストは劇的に下がりました。例えば、20年前には数年を要したようなゲノム情報の収集がゲノムシーケンシング機器によって、たった1日でできるようになっているのです。一方、研究者らには生成あるいは収集される膨大な量のデータを分析、処理するリソースとスキルの両方が求められるようになっています。スウェーデンのKnut and Alice Wallenberg Foundationは2020年10月にライフサイエンスにおけるデータ駆動型研究を支援するために計37億SEK(スウェーデン・クローナ)の基金を創設したと発表しました。

広がるデータ活用

IT技術の発展により入手可能となった大量のデータが、学術界および産業界におけるデータ駆動型研究を促進しています。事実、産業界とくに金融業界では「フィンテック(FinTech)」と称される金融サービスと情報技術を結びつけ、データを活用する動きが進んでいます。コロナをきっかけに一気に進んだデジタル化が業務のIT化に限らずプロセスの変化を促し、さまざまな分野でデータを蓄積・分析することで新しい価値を生み出しているのです。そして学術界でも多くの研究者が、さまざまな手法を用いて科学的あるいは社会的に有意義なデータを引きだそうとするアプローチである「データサイエンス」に取り組んでいます。例えば、環境学者のカーティック・ラム(Karthik Ram)は、生態系データを分析するためにプログラミングと情報管理を学び、今ではカリフォルニア大学バークレー校のBerkeley Institute for Data Science (BIDS)のシニアリサーチ・データサイエンティストとして活躍しています。データ分析を行っている同僚には神経科学者、社会科学者、生物学者などさまざまな分野の研究者がいるようです。この事実は、多くの研究者がデータサイエンスの研究に従事していることを示すと同時に、多くの研究分野で膨大の量のデータを生成・活用していることを示しています。こうしたビッグデータを分析するため、研究者は自分の研究分野の知識に加えて、統計学やアルゴリズム、情報科学、数学、機械学習などの知識、さらにはプログラミングスキルなどを獲得する必要に迫られているのです。

ビッグデータがもたらすパラドックス

かつてこれほど膨大なデータが生成されたことはありません。ビッグデータはデータ駆動型研究に不可欠ですが、多くのビッグデータはスマートフォンのアプリの利用状況などから集められる情報や診療記録など、個人情報に関わるものであることから取り扱いには注意が必要です。ビッグデータを研究に用いる際の10の基本的なルールを記した論文も出ていますが、学術あるいは産業研究にかかわらず倫理規定に準じる必要があることは覚えておくべきでしょう。また、ビッグデータを分析、システム化、特定するために必要なスキルや人材が不足していることも指摘されています。BIDSの研究者のように個々の研究分野の知識とITスキルを併せ持つ研究者の数はまだ限られているのです。先述のスウェーデンの基金は、このようなスキル不足に対処することを目的のひとつに掲げています。

スキル不足・人材不足も一因ではありますが、コロナ禍で日本のデジタル化の遅れが露呈することとなりました。スイスの国際経営開発研究所(IMD)が発表している「世界デジタル競争力ランキング2020」によれば、日本は63カ国・地域中27位。IMDは、デジタル人材の有効活用、適切な技術インフラの反映、技術の活用の3つのレベルが高い国・地域はランキングが高くなったと見ています。日本政府は2020年12月25日の閣議で「デジタル社会の実現に向けた改革の基本方針」を決定。新設するデジタル庁の2021年9月1日の発足に向け、今月2月9日にはデジタル改革関連法案を閣議決定しました。デジタル化を次の時代に向けた原動力のひとつと位置づけ、デジタル庁の基本方針を決定したわけですが、人材の確保・育成といった課題が残されています。経済産業省が算出した国内のIT人材需給の試算結果(2019年4月時点)における高位シナリオでは、2030年に79万人ものIT人材が不足すると推計しています。経産省は2018年からビッグデータを含む高度なIT・デジタルスキルを身につけた人材を育成する政策として「第四次産業革命スキル習得講座」の認定制度を設けていますが、人材育成は追いついていない状況です。とはいえ、最近では民間企業がトレーニング講座を開講したり、大学の博士課程でデータサイエンスの短期トレーニングコースを設けたりする動きも出てきました。製薬会社、研究機関、バイオテクノロジー企業がデータから有意義な情報を導き出すことを支援するプラットフォームサービスも出現してきています。今後、産業界・学術界でさらに多くの特別なデータサイエンススキルを持つ人材が必要とされことが明白な中、人材の育成が急がれます。

さらに、研究においてデータを利用する上では別の注意も必要です。データ駆動型であれ、仮説駆動型であれ、綿密な研究計画を立ててから研究を進めなければ、時間や研究費を浪費するだけで、研究成果がまとまらない可能性があります。データ駆動型の場合、ビッグデータを活用することで何らかの結果は出てきますが、データの収集・分析には特殊なスキルも要しますし、期待しているような結果が得られるとは限りません。データが出てからの勝負だとも言えます。データが集まりすぎて、方向性を見失う可能性すらあります。とはいえ、データはあくまでも人間の活動から得られるものであり、データサイエンスあるいはデータ駆動型研究で得られる成果はあくまで人間の活動を支援するものであるべきです。

世界的なデジタル化が急速に進む中で日本が後れを取り戻せなければ、国力(産業力および学術研究力)の低下にもつながりかねません。数々の課題に対処するために必要な改革を進め、ビッグデータを上手に活用していくことが求められています。

X

今すぐメールニュースに登録して無制限のアクセスを

エナゴ学術英語アカデミーのコンテンツに無制限でアクセスできます。

  • ブログ 560記事以上
  • オンラインセミナー 50講座以上
  • インフォグラフィック 50以上
  • Q&Aフォーラム
  • eBook 10タイトル以上
  • 使えて便利なチェックリスト 10以上

* ご入力いただくメールアドレスは個人情報保護方針に則り厳重に取り扱い、お客様の同意がない限り第三者に開示いたしません。

研究者の投票に参加する

研究・論文執筆におけるAIツールの使用について、大学はどのようなスタンスをとるべきだと考えますか?