研究結果の信頼性-信頼度指数は適用されるべきか

かねてより学術研究における「再現性の危機(reproducibility crisis)」が問題となっています。Nature誌が2016年に発表した調査結果では、70%を超える研究者が他者の実験結果を再現できなかっただけでなく、半分以上が自分の実験すら再現できなかったことが示されていました。こうなると、研究の信頼性が揺らいでいると言われても反論できません。どのように信頼できる研究を見抜けばよいのでしょうか。
そこで今回は、研究結果の信頼性の目安とされる「信頼度指数」や、実験結果(データ)の妥当性を示す指標とされる「p値(有意確率)」についてみてみます。
信頼度指数とは?
信頼度指数(confidence index)とは、説明内容の妥当性について、事前証拠の影響および調査者の判断を形式的に具体化する指標です。
例えば、ある治療法をテストする実験では、母集団を代表するサンプル(治験の参加者など)は確実に無作為に抽出されていることが必須です。それは、サンプルに対する実験の結果から母集団全体への効果を推定するためであり、この場合の信頼度指数は、その治療法が、母集団全体に対してどの程度、サンプルに見られたのと同様の効果が出るかを示す数値となります。
【信頼度指数】
信頼度指数はベイズ統計に基づくもので、次の要素を考慮したものです。
- ランダムな変数―情報がないため未知の要素が存在
- 事前確率―利用可能な既存の情報
- 仮説の真らしさ―仮説が真であるか偽であるかの確率
p値(有意確率)とは?
もう一方のp値とは、研究者が実験データの統計的有意差の判定に慣習的に用いる指標で、帰無仮説(ある仮説が正しいかどうかの判断のために立てられる仮説)が正しいとするならば、検定統計量(観察された数値)と同程度の結果が得られる確率を示すものです。つまり、特定の仮説に対してデータがどのぐらい整合していないかを示しています。特定の仮定(前提)を想定した数値であること、サンプル数などさまざまな要素(以下)の影響を受けることを念頭に置いておく必要があります。
【p値】
p値は次の要素に依存します。
- サンプルの規模―サンプルの数が多いほど、結果が正確になる
- 反応の頻度―特定の反応の頻度が高いほど、結果は正確
- 母集団の数―母集団が小さいときのみ重要
p値はよく使われている統計値ですが、米国統計学会(American Statistical Association: ASA)は、p値自体は「モデルや仮説の正しさに関する尺度として適切なものではない」と警告しています。
p値が適切な尺度ではないとする理由=p値には以下の情報が含まれない
- サンプルが母集団を代表しているか
- 検討対象の帰無仮説が正しいか否か
- データはランダム抽出によって得られたものか
このことからも、p値だけを判断基準とすることは避けた方がよいでしょう。
p値から判断できること
p値の算出方法は省きますが、一般的に、p値が0.05(5%)を上回れば有意差はなく、下回れば有意差があるとされています。そのため、研究者はp<0.05(5%未満)であれば結果を発表できると考えてきました。p<0.05なら、偶然の影響は問題にならない(結果が有効である)、つまり有意差があると解釈できるからです。p値が0.05以上の場合は、有意差がないと解釈されるので(Not significant: NSと記載される)発表を控える研究者もいるでしょう。p値の閾値については、米国統計学会が2016年に声明を発表し、p値の適切な利用と解釈についてまとめているので参照してみてください。
正しい判断を下すために-信頼度指数を併用する
米国統計学会はp値を「科学的根拠の代わり」とせず、「研究の適切な設計と実施」などの種々の要素を加味した上で研究結果の有効性を分析すべきであると注意を喚起しています。確かにp値に関する議論は、先行文献と関係付けたうえで、実験手法やデータの分析方法を明瞭に示した上で取り扱われるべきでしょう。p値は研究や実験データを統計的に裏付ける唯一の手段ではないのです。研究を正しく評価するためには、さまざまな情報や他の指標を併用して判断することが必要です。
米国スタンフォード大学のSteven Goodman教授は、信頼度指数を考慮して結果を定量的に評価することができれば、研究を明確にすることができると述べています。臨床試験を次の段階に進めるかどうかを判断するとき、研究の限界を知る手がかりとしても重要な信頼度指数を併用することにより、いわゆるpハッキング(p値をできるだけ小さくなるようにデータを操作すること、不正に当たります)を防ぎ、実質的な数値を示すことにつながると考えられます。p値は便利な統計指標ですが、データの信頼性、ひいては研究の価値を裏付けるものではないことを踏まえ、p値ばかりに囚われず、信頼度数と併用することが得策でしょう。
研究分野の専門化と細分化が進む現状において、実験内容や観察がより精緻で微妙なものとなる傾向が目立ちます。こうした中で、実験結果やデータ解析の信頼性がより求められるようになっているのです。再現性の危機を克服するため、そして研究の信頼性を確保するためにも、再度根本に立ち返って考える必要がありそうです。
こんな記事もどうぞ
エナゴ学術英語アカデミー 学術ウォッチャーが斬る!「再現性の危機」に対応するための「チェックリスト」