14

GRIMとSPRITE:論文のエラーを探すツール

あなたが優秀な若手研究員で、ある研究に日夜取り組んでいるとします。

作業の合間にちょっと一息と、自分と同じ研究分野の最新動向を検索し始めると、自分の研究によく似た論文に関する記事が目に留まりますが、その論文は研究不正を理由に取り下げられたとのこと。そのような記事を見てしまうと、自分の研究は大丈夫だろうか?同様に論文が却下される事態をどうすれば避けられるのか?などと不安になってしまうことでしょう。

研究不正と疑われることを防ぐ対応策のひとつとして、自分のデータはもちろん、引用する出版済み論文のデータの正確性についても確認しておくことが不可欠です。科学研究データの信頼性が揺らぐことで生じる「再現性の危機(replication crisis)」は、学術コミュニティにおいて大きな問題です。今回は、研究不正を防ぐのにも役立ちそうな研究論文のエラーを探し出すための2つの方法をご紹介します。

GRIM(グリム)とSPRITE(スプライト)

再現性の危機への認識が高まる中、2016年にポーランドのPoznań University of Medical Sciences のポスドク(当時)だったJames HeathersとオランダのUniversity Medical Center Groningen (UMCG)のNick Brownという二人の研究者が、心理学分野の論文における数値の異常を簡単に検知する手法「GRIM(Granularity-Related Inconsistency of Means)」を発表しました。心理学分野では再現性の危機が議論されていましたが、この二人の研究者は、他の人が思いつかなかったような出版論文の正確性を評価する手法を見つけたのです。GRIMに必要なのは、平均値とサンプルサイズのみというシンプルさ。その後、2018年には、GRIMに類似した統計手法である「Sample Parameter Reconstruction via Iterative Techniques(SPRITE)」を発表。どちらも完全なデータセットを必要としないので、対象とする論文さえあれば、だれでもこれらの手法を使って検証することができるのです。

GRIMとは

GRIMは、収集された研究データのサンプルから、報告された平均値が妥当なものであるかどうかを検証するものです。特に集計されたデータが数字で示されている場合、例えば、参加者の年齢や意見が数字で集計されるような場合(「強くそう思う」を1、「全くそう思わない」を5のように回答する形式)に採用されます。人から情報を収集する社会科学のような分野のデータ集計、平均値が非連続の独立した数値から算出されるような場合において、GRIMは高い精度を発揮します。

Heathersが例を挙げて説明しています。12人の参加者の年齢の合計が251であれば単純な計算で平均値は20.92となります。しかし、この12名のうちのひとりでも誕生日を迎えれば、合計は252となり、平均は21となります。このように、たった1つの数値が変わるだけで合計値が変わり、それに伴い平均値も変わるので、この平均値は12分の1(0.083…)ずつ変化することになると言えます。つまり、平均値の変化はサンプル数(母数)nの分数として算出される値に制限され、整合しない数値が示された場合には、データと矛盾していることになります。これを踏まえると、例えばサンプル数が12(n=12)で比較結果の平均年齢が20.33(M=20.33)と20.95(M=20.95)と書かれていた場合、この結果はサンプル数12に対して矛盾した数字となり、該当の結果は「間違っている可能性がある」ではなく、「疑わしい」と判断できるわけです。このように、実際に集められた年齢データがわからなくても、n数とM値から統計的にその数値が妥当かの評価ができるのです。

GRIMは、科学研究データにおける再現性の危機を踏まえて開発されたものです。HeathersとBrownの研究には、代表的な心理学の学術術誌(ジャーナル)に掲載された260もの実験に基づいて書かれた論文を精査した結果が示されています。GRIMテスト手法が使えた71本論文のうち、約半数(31本、50.7%)に少なくとも1つの疑わしい平均値があることが判明し、さらに16本(20%)以上の論文においては複数の疑わしい数値が含まれていたことが判明しました。

GRIMは、オンラインツールなので誰でも利用できます。特に社会系の学問のように、サンプル数が少なく、すべての調査結果を数字で表せる研究に適しています。

SPRITEとは

GRIMは非常に有効な手法ですが、限界もあります。そこで2017年、HeathersはGRIM同様に、公開されたデータセットの不整合性を突き止めるための統計ツールとしてSPRITE(Sample Parameter Reconstruction via Iterative Techniques)と呼ばれる新しい手法を開発しました。SPRITEは基本的な要約の統計によりデータ全体を再現することで検証を行います。SPRITEは、平均値、標準偏差、サンプル数、そして値域の検証が可能です。

SPRITEがGRIMより優れているのは、より大きなサンプル数にも対応できる点です。よって、より多様な研究の検証を行うことができます。SPRITEはまた、要約統計量は妥当と見られるものの、非常に極端な数字、あるいは常識的ではない数字が算出される研究も拾い出すことができます。

SPRITEは、詳細データを示す統計から妥当なサンプルを再構築することで問題を解決し、オリジナルデータの数値の分布可能性を研究者や査読者、編集者らにも提供する手法です。SPRITEは、はじめに正しい平均値を使ってデータセットを再現します。次に、目的の標準偏差に到達するまで繰り返し演算し、サンプル中のランダムな数字のセットを調整していきます。そして、最終的に算出された数字が現実的かどうかを、常識的な見解に基づき判断します。

Heathersは、学校の昼食で子どもたちが60本相当の人参を食べているという研究について、SPRITEで検証した結果を紹介しています。まず60本の人参(一口でかじれるような小型のものであっても60本の人参)はどれほどの量なのかを実際に測り、その量に驚いたところでSPRITEによる検証を開始。結果は、該当研究論文には数字の矛盾が見られたというものでした。これは明らかな例ですが、彼は他にも数多くのさまざまな論文を分析しています。

研究不正を特定する

GRIMとSPRITEは、発表された研究データの不整合な部分を広い出すことが可能です。GRIMとSPRITEによる解析は、なぜデータが誤っているのかを示したり、研究不正を突き止めたり、論文の撤回を促すものではありません。あくまでもデータの矛盾を見つけ出す手段です。しかし、上手に用いれば、研究不正や数値の矛盾を検知するのに非常に有効です。

自身の研究の結果の正確性を別の角度からチェックしたいと思ったら、GRIMとSPRITEを試してみるのもよいでしょう。

Leave a Reply

avatar
  Subscribe  
Notify of