T_NAKAの阿房ブログ

アクセスカウンタ

zoom RSS P値の閾値を変えようという提案

<<   作成日時 : 2017/10/08 00:01   >>

なるほど(納得、参考になった、ヘー) ブログ気持玉 1 / トラックバック 0 / コメント 0

ツイッターで流れてきた話題です。Nature に "Big names in statistics want to shake up much-maligned P value「統計学の大家は有害なP値を大刷新したい」"という記事があるとのことで、これを読んでみました。

-------------------------------------------------------------
科学者の好きな統計量の1つであるP値は厳しい基準に直面するべきであると、主要な研究者たちは言う。

科学は再現性の危機に苦しんでおり、研究者・資金提供者・出版社は、学術文献が信頼できない結果になっていることがますます懸念されている。 現在、72人の著名な研究者が「新たな発見を主張する証拠の統計的基準が弱い」という問題が原因の1つであると主張している。

多くの分野において、所見の重要性はP値によって判断される。 これらは、「帰無仮説」を採択(および棄却)するために使用される。この仮説は一般的に試験対象の効果が存在しないことを示している。 一連の結果で見つかったP値が小さければ小さいほど、結果は純粋に偶然によるものである可能性は低くなり、この値が 0.05 未満である場合、結果は「統計的に有意」と見做される。

しかし、多くの科学者は 0.05 という閾値が論文ではあまりにも多くの偽判断を引き起こしていると懸念している。P 切断と呼ばれる慣例によって問題が悪化し、最初に検証する仮説を作成せずにデータを収集して結果は統計的に有意であると報告することができる。

したがって、7月22日のPsyArXivプレプリント・サーバーに掲載された挑発的な原稿では、研究者は、P値の閾値を社会科学および生物医学のために0.005に下げるべきであると主張している(D. Benjamin et al. Preprint on PsyArXiv http://osf.io/preprints/psyarxiv/mky9j ; 2017)。 最終論文は Nature Human Behavior に掲載される予定。

「研究者は、P値が0.05であるときの証拠がどれほど弱いのか分かっていない」と同紙の共著者の1人であるロサンゼルス南カリフォルニア大学の経済学者 Daniel Benjamin は語っている。 彼は、P値が0.05と0.005の間の主張は「確立された知識」というより、単に「示唆的な証拠」として扱われるべきだと考えている。

他の共著者のカリフォルニア州のスタンフォード大学で科学的堅牢性を研究しているJohn Ioannidisと、バージニア州シャーロッツビルにあるOpen Science CenterのExecutive DirectorであるBrian Nosekは、再現性の面で大きく2つの重大な要素を含んでいると指摘している。

サイズの過大なサンプル

P 値の閾値を下げることの1つの問題は、(実際には在るのに効果が存在しないとしてしまう)偽陰性のオッズを増加させる可能性があることであると、オランダのフローニンゲン大学の精神測定学および統計学者であるCasper Albers は話す。 この問題に対処するために、ベンジャミンと彼の同僚は、研究者がサンプルサイズを70%増やすことを提案している。 彼らは偽陽性の率を劇的に低下させながら、これが偽陰性率の増加を回避すると言う。 しかしAlbers は、実際には資金の十分な科学者だけがこれを行う手段を持っていると考えている。

シカゴのイリノイ工科大学のコンピュータ科学者であるShlomo Argamonは「どのような信頼水準を選んでも、実験を設計するのに十分な方法があれば、 それらのうちの少なくとも1つが、偶然にも統計的に有意な結果をもたらすだろう」と述べている。 彼は、新しい方法論的基準や研究インセンティブなど、より根本的な変化が必要だと述べる。

また、英国のレディング大学の認知神経科学者である Tom Johnstone は、P値の閾値を下げることで、「ファイル引き出しの問題」が悪化する可能性があると言う。 ベンジャミンは、P値にかかわらず、すべての研究が公開されるべきだと述べている。

訳注)「ファイル引き出しの問題」とは「出版バイアス」とも呼ばれ、「帰無仮説を棄却できない(すなわち、統計的に有意な結果をもたらさない)研究は公表される可能性が低い」というバイアスのこと。つまり発表されずに引き出しにしまわれるということだと思います。

動くゴールポスト

他の科学分野はすでに P 値に対し厳しく対応されていて、2015年にはある心理学誌では使用を禁止されている。 加速器実験から多量のデータを集める素粒子物理学者であるカレッジステーションのテキサスA&M大学と論文の共著者等は、低い閾値が間違った主張につながる可能性があるという懸念から、P値が0.0000003(または3×10-7)未満であることを長い間要求してきた。 10年以上前、遺伝学者は、疾患を有する人々と何十万ものDNA情報変異体を持たない人々との間の差異を探す、ゲノムワイド関連解析で 5×10-8 の閾値を確立するために同様の手順を取った。

しかし他の科学者は、(2つの代替仮説を定義してテストする必要がある)ベイジアンテスト等のより洗練された統計ツールを利用している。 しかし、P 値は仮説が証拠によって裏付けされているかどうかを評価するのに役立つと考えている Johnson 氏は、すべての研究者がベイジアン検定を実施する技術的専門知識を持つわけではないと述べている。 「P 値そのものは必ずしも悪いものではない」。
-------------------------------------------------------------

0.05 というのは 20 回に 1 回程度起こるということですね。帰無仮説が正しいとして、たまたま採取したデータが発生する確率が「20 回に 1 回程度起こる」ことよりちょっとでも少ないと、「有意差あり」として「帰無仮説を棄却する」というのはユル過ぎるような気はします。しかし、ではどこまで下げれば良いか?というのは 程度の問題のような気がします。
つまりあまり決め手が無いんじゃないかと。。。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 1
なるほど(納得、参考になった、ヘー)

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
P値の閾値を変えようという提案 T_NAKAの阿房ブログ/BIGLOBEウェブリブログ
文字サイズ:       閉じる