P値に関する問題-P値ハッキング
研究の世界では統計的な有意性が求められます。有意性の判定基準として通常は「P値(有意確率)」が使われており、調査・研究対象によって違いはありますが、一般的には0.05(= 5%)を有意水準として、P値が0.05以下の時に仮説が有意であるとされます。これはつまり、この事象が起こりえる確率は95%以上であるということを示しているわけで、P値が低ければ低いほど起こりえる確率が上昇することになり、その結果、有意性の度合いが高いと評価されます。
ここで、統計的有意性「P値」について簡単に説明しておきましょう。得られたデータ標本から計算した統計値を「統計量の実現値」と言います。「P値」は、帰無仮説(設定した仮説は成立しないという仮定)が正しいとした場合、そこで得られる統計量の実現値よりも極端な統計値が観測される確率のことです。統計量の実現値においてP値が0.05(5%)以下ということは、「帰無仮説が正であれば(つまり仮説が成立しない)、観測されたような事象が生じる確率は5%以下と極めて珍しい。従って帰無仮説は成り立ちにくく、仮説が正である可能性が高い」ということです。少々ややこしいですが、帰無仮説を用いた検定は、逆側からの立論となっているので辛抱してください。なお、「P値」の「P」は「Probability(蓋然性、確率)」のPです。さらに話をややこしくするのは、統計指標であるはずのP値に、誤用や誤解が付き物であるという実態です。このため、一部の研究者や学術雑誌(ジャーナル)はP値の使用を控える動きがあることも書き添えておきます。
さて、本題に入りましょう。太郎さんと花子さんという二人の研究員の会話の形で問題を解説します。
統計的有意性の追求
太郎:やり方を間違ったかな。有意な結果が出るはずなのに、P値は約0.08。どこが間違ったのかわからないよ。
花子:手順を再確認してみた?
太郎:やったよ。手順には問題がなさそうなんだ。指導教官は高インパクトなジャーナルにこの研究成果を発表して、次の研究プロジェクトの資金を獲得したいと思っているのに、今のところ得られている実験結果は、統計的に有意とは言えないよ。やり方を変えてみようかな。
花子:どう変えるつもり?
太郎:もっとデータを集めてみようかと思ってる。一部の異常値を除外することも考えてるし――間違ったデータなのは確実なんだ。それと別のデータ解析方法を試してみるべきかな。
P値ハッキングの問題
花子:でも、それをやったらP値ハッキングになっちゃうと思うけど?
太郎:P値ハッキング?
花子:研究者が意識的にせよ、無意識的にせよ取得後のデータを取捨選択して、有意な結果を導こうとすることはP値ハッキングになるの。取捨選択の他に、今言ったような異常値を除外するとか、解析方法を変えるといったデータの微調整もP値ハッキングに該当するわよ。
太郎:P値ハッキングなんて初めて聞いたよ。
花子:P値を下げたい気持ちはわかるし、統計的な有意性が高い成果の方がジャーナルで発表される可能性が高いことも分かってる。ジャーナルに発表できるかどうかは獲得できる研究資金や今後の経歴に直接的に影響するしね。だからP値を低くするために不適切な行為に手を染めちゃう研究者がいるのよ。
P値ハッキングの種類
太郎:P値ハッキングをしないためには、ちゃんと知っておくべきだね。もっと詳しく教えてよ。
花子:P値ハッキングをすると、P値が0.05か以下になるケースが多くなるけど、それは研究者が有意な結果が得られたと考えるあたりでデータの微調整を止めるからなの。P値が0.05近辺に集まっていると、P値ハッキングが疑われるわ。でも、もっとわかりにくいのもあるみたい。
太郎:例えば?
花子:ひとつは研究者が低いP値を出そうと調整し続けた場合に起こる「overhacking」。P値を低くして、結果により説得力を持たせようと、0.05以下になってもデータの操作を止めずに微調整を続けちゃうことね。
太郎:他には?
花子:収集したデータを何種類かの方法で解析したり、違う変数を分析したりして異なるP値が得られた場合、一番低い値を選択的に発表するという「selection bias」というのもあるわ。いくつか解析を行った結果、0.05以下のP値が複数得られたような場合に研究者は一番低いP値だけを発表する傾向があるというものだけど、これではデータの正しい状態を示すことにならないでしょ。もうひとつは「selective debugging」。コンピュータプログラムのバグを見つけ出して修正する作業である「デバック」に由来する名前なんだけど、選択的(selective)と付いているところが問題なの。統計的な検定の方法が不適切であったり、データ処理のプログラムに問題があったりした場合、そうしたバグを見つけて修正することはよくても、より有意な結果が出るようにバグを選んで修正して、有意性が求める水準に達したところでバグ探しを終了するというのはハッキングと見なされるわね。
太郎:良い結果につながるバクだけを選んで補正し、偽りの好結果を出すってことか。
花子:その通り。
P値ハッキングの防止
太郎:P値ハッキングが問題だということがよく分かったよ。でも、P値ハッキングを防ぐにはどうすればいいのかな?
花子:一番良い方法は、データを収集した後にデータや解析方法を変えないこと。いじりたい気持ちを抑えるのは大変だから、事前に研究計画を登録しておくというのもひとつの策ね。統計解析の方法を含めた詳細な研究計画を立てたら、それを「Open Science Framework」のような研究プロジェクト管理のためのプラットフォームに登録しておくの。そうすれば、研究成果が発表された時に他の誰もが当初の計画と実際に行われた方法を比べることができるから、P値ハッキングをやりづらくなるでしょう。
太郎:良い策だね。他にできることは?
花子:事前に計画を立ててそれを遵守することに尽きるわね。何かを変えるのは、純粋なエラーをした時だけ。そうすれば自分の実験を再現することもできるでしょ。
太郎:もしP値ハッキングが見つかったらどうなるんだ?
花子:そりゃ、研究成果の価値はガタ落ちだし、投稿したジャーナルへの掲載がリジェクトされることも考えられるし、最悪は研究費を受けられなくなることだって……自分の研究に費やした時間と資金を無駄にすることはもちろん、科学研究への信頼性を損なうことにつながるようなP値ハッキングは絶対にすべきじゃないわね。
太郎:有意な結果を得たいがためにP値ハッキングに手を出しちゃ駄目ってことは良く分かったよ。でも、P値ハッキングはどの程度認知されているんだ?
花子: P値ハッキングが増えているとの報告もあって、深刻にとらえられているようよ。特にメタ解析でP値ハッキングをやられると影響は大きいし、その結果を引用した他の研究結果にも響いてしまうでしょ。こんな状況を踏まえてジャーナルは有意性の偏重を見直し始めているみたい。研究計画の事前登録の仕組みも進むんじゃないかしら。研究者としても統計解析について別の方法を検討していくことや、研究計画とデータ収集の質を高めることに注力することはできるわよね。
太郎:色々教えてもらって助かったよ。
P値に関するアメリカ統計協会の声明
科学的結論の土台となっているP値は有用な統計指標ではあるものの、誤用と誤解がまかり通っているという背景を踏まえ、アメリカ統計協会(American Statistical Association, ASA)は、P値の適正な使用と解釈の基礎にある広く合意された原則を明らかにするため、2016年3月に「The ASA Statement of Statistical Significance and P-Values」を発表しました。この声明は日本でも注目され、日本計量生物学会が公式な許可を得て翻訳した文書「統計的優位性とP値に関する声明」を同学会のウェブサイトに掲載しています。
この声明の中で、P値につき次のような原則が挙げられています。
- P値はデータと特定の統計モデル(仮説もこの統計モデルに含まれる)が矛盾する程度を示す指標のひとつである。
- 科学的な結論や、ビジネス、政策における決定は、P値がある値(有意水準)を超えたかどうかにのみ基づくべきではない。
- 適正な推測のためには、すべてを報告する透明性が必要である。
*日本計量生物学会「統計的有意性と P 値に関する ASA 声明(2017年4月公開)」より抜粋
また、この声明では以下のようにP値ハッキングを戒めています。
- P値と関連した解析は選択して報告すべきではない。複数のデータ解析を実施して、そのうち特定のP値のみ(たいていは有意水準を下回った)を報告することは、報告されたP値を根本的に解釈不能としてしまう。
- 見込みのありそうな結果をいいとこ取り――データのどぶさらい、有意症、有意クエスト、選択的推論、P値ハッキングとも呼ばれる――すると、出版された論文に統計的に有意な結果が誤って過剰に報告されるため、厳に避けなければならない。
*同上の声明より抜粋
P値ハッキングを意図的に行うことは論外ですが、意図せず実施してしまうことも起こりえます。しかし、P値が提供する情報は限られており、研究詳細に関するさまざまな情報、論拠(エビデンス)などの提供も不可欠です。ASAの声明ではP値以外のアプローチについても示唆しています。少なくとも研究者はP値ハッキングの問題の危険性を明確に意識しながら、さまざまなアプローチも検討しつつ研究に取り組んでいくことが必要ではないでしょうか。
こんな記事もどうぞ
エナゴ学術英語アカデミー 研究結果の信頼性-信頼度指数は適用されるべきか