剽窃盗用チェックツールはどこまで信頼できるか

エナゴアカデミー, "剽窃盗用チェックツールはどこまで信頼できるか." 学術英語アカデミー. 2019-11-20. https://www.enago.com/academy/jp/trust-plagiarism-detectors/.

Copy

Reading time

2 minutes

By エナゴアカデミー

published on

Nov 20, 2019

学術研究における誠実性（Academic integrity）は重要です。研究者は、科学研究の発展を促進する独自性のある発想や研究成果を示すことで学術界に貢献することが求められていますが、同時にその研究が信頼に足るものであることを示すため、不正を疑われる行為は避けなければなりません。

研究不正にはいろいろありますが、対策の一環としてできることのひとつに、学術論文の剽窃・盗用などを事前に検知することが挙げられ、盗用・剽窃検出ツールを導入する学術雑誌（ジャーナル）が増えています。

盗用・剽窃チェック（plagiarism detection）ツールの過剰依存は問題

盗用・剽窃チェックツールとは、投稿論文の中に剽窃または盗用が疑われる内容が含まれているかどうかを確認するものです。とはいってもツールの利用は一長一短です。盗用・剽窃チェックツールに頼りすぎた査読により投稿論文が却下（リジェクト）された経験を持っている研究者もいることでしょう。ベルリン技術経済大学（HTW Berlin）のDebora Weber-Wulff博士は、学術ジャーナルの編集者は、自ら注意を払うことなく盗用・剽窃ツールの報告に依存しすぎると問題視しています。別の意見（セカンドオピニオン）を参照することが少ないとの指摘もあります。

Weber-Wulff博士は、盗用・剽窃チェックの報告書の解釈は時として難しく、不正確であることすらあると述べています。明確に文脈を理解すること抜きに論文の「斬新さ」あるいは「独自性」を評価するのは難しいものです。しかも、チェックツール（ソフトウェア）は、翻訳箇所や複数から取得した情報の剽窃を正しく検知できません。もうひとつ、チェックツールが単純な言葉の重複を剽窃と判断する場合があることも覚えておくべきでしょう。これはチェックツールが別々の論文原稿に書かれている3～5の文字列を検索していることで起こりえますが、逆に本来見つけ出すべき盗用・剽窃箇所を見落とし、正当な判定が出ないこともあり得えるのです。

人の目によるチェックの重要性

盗用・剽窃ツールを使っても、発想段階での盗用を検出したり、内容を特定することなしに既存の発見かどうかを判定したり、または許可なく転用された図表やデータを指摘することは不可能です。しかし、このような不正であっても、論文を注意深く読み、論文全体の整合性を確認する人（編集者）であれば見つけ出すことは可能です。

フランス国立科学研究センター（CNRS）の行動科学者Jean-François Bonnefon氏は、盗用・剽窃ツールに論文をリジェクトされてしまいました。彼が投稿した論文がリジェクトになった理由は、研究内容ではなく、方法や参考文献、著者略歴に対する指摘によるもので、これはソフトウェアによる重大な評価ミスであり、編集者が論文を見ればすぐに間違いであると分かるはずのものでした。にもかかわらず、人の目が介在しなかったために、彼の論文はリジェクトされてしまい、これは明らかに盗用・剽窃チェックツールの限界を示す事例だと述べています。人（編集者）を介在させないということは、アルゴリズムに依存するツールに判断を委ねることになってしまうのです。同様の事例は、他にも報告されています。

よく使われている盗用・剽窃チェックツール

現在、学術ジャーナルでよく利用されている盗用・剽窃チェックには4種類あります。それぞれ独自の特性を有していますが、限界があることは頭に留めておくべきです。

Grammarlyは、英作文や英語の論文における文法、スペリング、語彙の適切さ、剽窃等を自動でチェックするオンライン英文ライティングチェックツールです。膨大なウェブページを検索し、学術的情報から剽窃の確認を行います。
iThenticateは、800もの学術出版社による5000万本近い論文を収録しているデータベースを使って論文の剽窃チェックを行うツールです。研究論文や本のみならず、インターネット上まで網羅的な検索を行います。
Plagscanは、学術およびデジタルコンテンツの膨大なデータベースを利用して盗用・剽窃診断を行うソフトウェアです。
Crossrefは、約4000万本のアーカイブされた学術論文全文（フルテキスト）と2000万ものウェブ情報を比較して剽窃を検知するサービスです。

これらのツールもしくはシステムにおける限界として最も顕著なことは、すべて一語一語を文字通りチェックするものではないという点です。ツールによって「テキスト・ロンダリング（text laundering、お金の出所をわからなくするマネー・ロンダリングになぞらえて元の執筆者・出所がまったくわからない程度に他者が書いた文章を書き換えてしまうもの）」を含む「リライト（書き換え）」の検出方法はさまざまですが、英国の研究団体であるPublication Integrity and Ethics（PIE）による剽窃チェックソフトの研究によれば、剽窃チェックをすり抜ける手段としてテキスト・ロンダリングが使われているとしています。語順を入れ替えたり、文字以外の装飾情報を削除したり、あるいは単純に同義語に置き換えたりするようです。また、もっと根本的なところで、剽窃チェックは研究内容の分析までを行うことはできないので、考え方や情報の盗用などを検知することはできません。

ツールの抜け穴を埋める

盗用や剽窃は大きな問題です。研究成果や研究者の努力を歪め、科学研究の発展を阻害するだけでなく、一般の人々から科学研究に対する興味を失わせることにもなりかねません。この問題に対し、盗用・剽窃チェックツールを活用しながらも、その抜け穴を埋めるべく、学術界はさまざまな対策を行っています。

シュプリンガー・ネイチャー（Springer Nature）社は、同社の学術ジャーナルの論文チェックプロセスに編集者によるレビューを組み込んでいます。例えば、The Scientistの場合は、最初に人によるチェックがあり、その後にツールを使ったチェックが行われます。そして再度人によるチェックが入ることで、最終的な判断を人が行うようにしたのです。異なる言語のチェックにも人が介入します。剽窃チェックが作成した報告書を翻訳し、それにより報告書のミスを見つけられるようにしています。

最近では、シュプリンガー・ネイチャーやエルゼビアのように多くの出版社が、査読プロセスの一環としてAIを利用したツールの利用を模索し始めています。AIプログラムの、統計的に問題を認識する能力、あるいは主要な部分を認識して論文を要約する能力に期待が寄せられています。ただし、AIが編集ツールのひとつとして有効であると考えられている一方、いかなる盗用・剽窃チェックツールでも人の目と経験には及ばない、剽窃チェックには人の介入が欠かせないとの考えには多くの賛同が得られています。

論文のオープンアクセス化や情報のオンラン化に伴い、学術論文出版における盗用・剽窃は増加していると言われています。出版社は、検出困難な盗用・剽窃についても対策が望まれており、常に新しい状況を把握していく必要に迫られています。そのような中で、ツールに加えてAIの進歩とその活用が期待されているようですが、いまのところ学術論文における盗用・剽窃に確固たる解決策はありません。ツールなどをうまく活用することで学術研究における不正を防ぎ、研究の誠実性を保つための努力が続くことでしょう。