EnagoBy: Enago

AI活用に必須の、人間による正しい管理

AI活用に必須の、人間による正しい管理

近年、学術研究は人工知能(AI)の急速な発展に大きく後押しされ、大々的な変革を遂げています。文献レビューの草稿作成から最終原稿の推敲に至るまで、AIツールは研究ワークフローのほぼすべての段階に入り込んでおり、テキストを素早く生成・要約・編集する生成AIの能力は、加速する学術コミュニケーションの要求に対応しようとする研究者にとって不可欠なものとなっています。

しかし、こうした利点の反面、表面化しにくいながらも増加しているリスクもあります。厳密な人間の査読なしにAI生成コンテンツを受け入れてしまう誘惑です。


AIの流暢な言葉に惑わされるな

ChatGPTを始めとするAIツールは、文法的に完璧で洗練された文体のテキストを生成することに優れています。多くの研究者——特に第二言語で研究を行っている研究者——にとって、これらのツールは科学論文の執筆プロセスにおいて有用な支援を提供してくれるものです。ツールを利用することで反復的な作業の負担を軽減し、科学的な発見につながる作業により集中できるようになります。

しかし、AIが生成したテキストの流暢な言葉が人を惑わせることもあります。AIが生成したテキストは往々にして「プロらしく」見えるため、誤って信頼されてしまう可能性があります。文章が滑らかで自信に満ちていると、不正確な事実や意味の微妙な変化を研究者が見逃してしまうかもしれないのです。

こうしたAI生成コンテンツによる誤情報などは、なかなか見つけ出しにくいものです。AIによる誤りは巧妙です。よく見ると不正確な専門用語、文の意味を変えかねない修飾語、あるいは誤解を招くほど自信満々な主張などが挙げられます。例えば、AIが薬は病気を「予防する(prevent)」と書き記していても、より正確には「リスクを低減する(reduce the risk of)」なのかもしれません。些細な違いに思えるかもしれませんが、こうした区別は科学文献において重大な意味を持っています。

さらに悪いことに、AIツールは膨大なデータセットで訓練されているので、時代遅れな情報や、偏った情報、あるいは誤った情報が含まれている可能性があります。その結果、信頼できる情報の中に誤った情報、事実とは異なる情報が入り込むといったハルシネーション(hallucinations)が起こってしまいます。もっともらしく見えても完全な捏造された「事実」、誤解された概念、存在しない参照さえ在ります。こうした情報を記述したテキストは非常に洗練されているので、経験豊富な研究者でさえ気づかずに見過ごしてしまいがちなのです。


一つのミスが優れた科学を損なう

検証されていないAI生成コンテンツの影響が次第に顕在化してきています。学術誌(ジャーナル)やプレプリント・プラットフォームは、AIツールの利用によって入り込んだ誤情報を含む論文に対し、警告を与えたり、リジェクトあるいは撤回といった処置をとったりし始めています。これらの処置は不正やデータ操作に対するものではなく、信頼を損なったことへの予期せぬ結果です。

Scientific Reports誌に掲載された最近の査読付き研究は、ChatGPT-3.5およびChatGPT-4が生成した捏造文献引用の発生率を体系的に評価しています。研究者らは、GPT-3.5が生成した引用の55%、GPT-4が生成した引用の18%が捏造であること、つまり実際に対応する学術論文に対応していないことを発見しました。さらに、実際の論文を参照している引用文献についても、実質的な誤りがかなりの割合で確認されています。

AIツールによって導入された技術用語のわずかな変化が、著者の専門性を損なう可能性があることを示すもう一つの事例を示しておきます。Retraction Watchの調べで発覚した「vegetative electron microscopy」という用語は直訳すると「植物性電子顕微鏡」と技術用語のように見えてしまいますが、意味不明です。一説には紙面上は段組の別々の2列に記載されていた「vegetative」と「electron microscopy」が、たまたま隣り合ったがためにデジタル処理の誤りで一語のように認識されて発信されたものをAIが拾い上げて生成テキストに吐き出したとも推測されています。

Google Scholarで検索すると20本以上の「electron microscopy of vegetative structures」または「vegetable electron microscopy」に言及する論文がヒットし、中には2024年の論文も含まれていることが判明しました。Retraction Watchが確認したところによれば、この風変わりな単語はペーパーミル(代筆者による論文作成)論文の関与を示唆する「指紋」のようにも捉えられているようですが、この語句を含む論文を(語句だけが理由とは限りませんが)リジェクトした出版社もあれば、「vegetative electron microscopy」を「scanning electron microscopy」に修正するよう求めた出版社や、この奇妙な表現の使用を擁護している出版社もあったようです。

いずれにしても、AIが生成した語句や表現が査読者の目をすり抜けてしまった場合、研究内容自体が堅実であっても、著者の専門知識と研究の信頼性に深刻な懸念を引き起こす可能性は拭えません。学術出版において、技術用語のわずかなミスさえも専門性の欠如を示唆し、論文自体に疑問を持たれたり、リジェクトの理由につながったりする可能性があることは覚えておくべきでしょう。

AIの活用が増えるに従い、AI生成テキストに起因する問題はますます頻繁に発生してきます。そうしたテキストのすり抜けは研究者個人の評判を損なうだけでなく、科学コミュニケーション全体の信頼性を損なう恐れがあるものです。最も懸念すべきは、こうした誤りが生じる裏に悪意が潜んでいることは少ないということでしょう。研究者は単に、AIが不正確な情報を挿入したり、意図した意味を誤って表現したりしていることに気づいていないだけかもしれないのです。


AIの限界を理解する:文脈と判断が重要

問題の核心は、現行のAIモデルが抱える根本的な限界にあります。つまり、AIはまだ科学を正確には理解せず、言語を推測しているに過ぎないということです。AIシステムは、生成するコンテンツの意味や文脈、含意を理解するのではなく、学習データ内のパターンを識別することで動作しています。

よって、AIは明示的に指示されない限り、実証された事実と推測に基づく主張を確実に区別することはできません。方法論を決定する際の背景にある論理や、慎重に表現された研究の限界の重要性を理解することはありません。こうした微妙な点には人間の判断が必要であり、AIに代行することはできません。

専門知識、批判的思考、文脈理解は依然としてAIでは代替できない要素あるいは作業です。その分野に精通した研究者だけが、AIが生成する言語がその分野の科学を正確に反映しているかを確認することができるのです。

AIが学術論文執筆プロセスに深く入り込むにつれ、万能な解決策と見なしたくなるでしょう。しかし、AIツールが文法や推敲を向上させられる一方で、論理的矛盾や文脈上の曖昧さの検出では往々にして不十分で、そうした作業には依然として人間の判断が不可欠です。

例としてAIツールで校正したテキストと人間が校正したテキストとを比較してみましょう。
 

原文:

“Therefore, it could be possible that the feasibility of a throwing estimation considering individual differences. However, since our evaluations were limited to a specific age group, we have studied the widening of age groups to obtain new insights. As one of our future works, we deal with these limitations."


AIツール1による校正テキスト:
"Therefore, developing throwing performance estimations that account for individual differences may be feasible. However, since our current evaluations were limited to a specific age group, future studies should expand the age range to gain new insights. Addressing these limitations will be a focus of our future research."

AIツール2による校正テキスト:
"Therefore, it may be possible to estimate throwing feasibility while accounting for individual differences. However, since our evaluations were limited to a specific age group, we have explored expanding the age range to gain new insights. Addressing these limitations is one of our future research directions."

2つの異なるAIによる校正案は文法とトーンの改善に寄与していますが、論理的欠陥は残ったままです。“these limitations”(これらの制限)といった表現は曖昧なまま残され、限定された年齢層と年齢範囲拡大の必要性との関係性は不十分なまま残されています。つまり、AIは表面上、文章を整えるのには役だったものの、構造そのものは修正されなかったことになります。

人間による校正:
注1:“it could be possible that the feasibility of a throwing estimation”では意図された意味がやや不明確でした。ここでは投球予測が可能であることを指していると推察し、それに応じて文言を修正しました。

注2:この文の意味が不明確です。年齢層の拡大が特定の年齢層の制限とどのように関連しているのでしょうか?

 

人間による校正結果:

"Therefore, throwing estimation considering individual differences may be feasible. However, since our evaluations are limited to a specific age group, we have studied the widening of age groups to obtain new insights. In a future work, we plan to address this limitation."

(仮訳:したがって、個人差を考慮した投球能力予測は実現可能と考えられます。しかしながら、我々の評価は特定の年齢層に限定されているため、新たな知見を得るために年齢層の拡大を検討しました。今後の研究では、この制限に対処する予定です。」


人間による校正が価値を加えた点:

人間による校正は、AIではできない部分を補完しています。

 

  • 表現の明確化:“it could be possible that the feasibility…”という曖昧な表現を“throwing estimation considering individual differences may be feasible.”と書き換えて明確化。
  • 論理的欠陥の修正:言及されていた制限がage group restriction(年齢層の制限」のみであることを認識し、“these limitations” (複数)を“this limitation”(単数)に修正。
  • 文脈的意味の推論:原稿内の他の箇所からアイデアを参照し、論理の流れを強化するとともに査読者の懸念を予測。

 

これらの修正は文章を読みやすくしただけでなく、論理的に整合し、文脈に適応し、出版可能な状態にまで整えています。こうした作業には、人間の校正者の洞察力が欠かせません。

 

研究インテグリティを保ちつつ人間とAIが連携

解決策はAIの利用を放棄することではなく、責任を持って活用することです。AIに責任を持たせるのではなく、補助として扱うべきです。個々の文から原稿全体に至るまで、あらゆるAIの生成物(アウトプット)には慎重な人間の確認と推敲が必要です。人間が推敲することで、意味が変わっていないかの確認、事実や引用文献の検証、さらにテキストが研究者の意図を忠実に反映していることを保証するのです。

大学、学術ジャーナル、資金提供機関は、AIツールの使用に対処するためのポリシーやガイドラインの策定を始めています。多くの大学・機関、出版社では、著者にAIの使用を開示し、すべてのコンテンツが人間の専門家により校正されていることを証明するよう求めています。これらのポリシーは単なる形式的な手続きではありません。研究の質と信頼性を守るために不可欠な安全策です。

生成AIは学術研究の状況を変えつつあります。生産性を高め、コミュニケーションを効率化するツールが利用可能となっていますが、これらは役立つ反面、その利用には責任が伴います。人間が管理することなくAIに依存することで入り込む軽微な誤りは―それが不注意や不正によるものではなく単なる自動化によるものだったとしても―、最高の研究さえも損なう可能性があることは留意しておくべきです。

科学の未来は、AIと人間の専門知識のバランスの取れた連携にかかっていると言えます。研究者はAIリテラシーを習得する必要があり、大学・機関は出版前にAI支援研究を批判的に評価する審査チェックを導入すべきでしょう。研究インテグリティを守るためには、人間の判断が最終チェックポイントとして残されていなければなりません。人間が介在することで、あらゆる主張、あらゆる引用、そしてあらゆる結論が正確で、主旨に沿ったものであり、かつ信頼できることを保証するのです。


参考

Wiley Using AI tools in your writing


こんな記事もどうぞ

責任あるAI使用の呼びかけ:漫画「考えることをやめたとき」