皆さんこんにちはPartner of Medical Translatorsの津村です。

メディカル翻訳をやっていますと、大半の文書で統計解析の記述が出てきまして、「P値が・・・」だから「有意」だとか「有意でない」とかの説明に遭遇します。

そこで今日は、このP値についてお話ししてみたいと思います。

 P値とは

P値とは Probability value = P value のことで、「確率値」と訳されます。ただし、メディカル翻訳では多くの場合、単に「P値」と表現します。

P値とは、統計解析における仮説検定(hypothesis test)または統計学的検定(statistical test)の結果として表示される数値です。

ここで、問題となるのが確率ですが、確率とはなんでしょうか?

 英語で・・・

 確率とは

確率とは一種の予測値のことで、ある事象が起こる可能性(リスク)を表しています。

確率は0から1の間の数値で表され;

*確率が0とは、注目しているある事象が「絶対起こらない」ことを意味しています。⇒ 例:1~6の目を持つ1個のサイコロを1回振って、7の目が出る。

*確率が1とは、注目しているある事象が「必ず起こる」ことを意味しています。⇒ 例:1~6の目を持つ1個のサイコロを1回振ると、1~6のいずれかの目が出る。

*同時には起こりえない事象(これを排反事象と言います)において、個々の事象の確率を合計すると1になる。

⇒ 例:1~6の目を持つ1個のサイコロを1回振って2の目が出る(事象A)確率は1/6、奇数(1か3か5の目)が出る(事象B)確率は3/6=1/2、4か6の目が出る(事象C)確率は2/6=1/3なので、事象A、B、Cは排反事象であり、その確率の合計は1/6+3/6+2/6=6/6=1となります。

*互いに排反(同時には起こらない)な事象Xと事象Yが同時に、あるいは続けて起こる確率は、事象Xと事象Yの各確率のかけ算となります。

⇒ 例:1~6の目を持つ1個のサイコロを2回振って、2回とも5の目が出る確率は1/6×1/6=1/36(約2.8%)となります。逆に、2回とも5の目が出ない確率は5/6×5/6=25/36(約69.4%)となります。

ただし、気をつけていただきたいのは、確率はあくまで予測値ですので、 実際に起こった現象が確率値どおりになるとは限らない! ということです。

サイコロを転がす、面白いサイトを見つけました(こちら)ので、使わせてもらいました。

画面下のプラスボタン(+)とマイナスボタン(ー)で1〜4個のサイコロに増減可能です。とりあえずは、画面のサイコロを1個にしてください。

画面下のSHAKEボタンをクリックするとサイコロが転がって、任意の目が出ます。

実験:SHAKEボタンを6回クリックしてください。その6回の内、2の目が出た回数は何回でしたか?

⇒ 2の目が出る確率は1/6ですから、1回だけ出ることが最も期待されますが、実際は、0回だったり、2回だったり・・・と確率どおりにはならない場合も結構多いことを確認してみましょう。

この計算上の確率(1/6)を統計学的には「期待値」と言います。

 統計学での確率の考え方

統計学的検定での確率の考え方を体験してみましょう。

証明したい仮説: ここにどうも「いかさまサイコロ」らしいサイコロが1個あります。そこで、証明したい仮説は、これが「いかさまサイコロ」であることを確認すること・・・となります。

皆さんも、上記のサイコロを転がすサイト[こちら]を使って実験してみてください。

******************************

実験1: 1個のサイコロを続けて3回振ったとき、3回とも偶数の目が出た。

⇒ この様な現象が 正しいサイコロ で起こる確率は

1/2×1/2×1/2=1/8=12.5%

となります。この確率は、「サイコロを3回振る」ことを100回繰り返した時に12回か13回は起こる・・・と言う現象が目の前で起こったことになります。

質問です⇒ あなたはこの結果から、このサイコロはいかさまだ!と思いますか?

実験2: 1個のサイコロを続けて3回振ったとき、3回とも1または2の目が出た。

⇒ この様な現象が 正しいサイコロ で起こる確率は

1/3×1/3×1/3=1/27=3.7%

となります。この確率は、「サイコロを3回振る」ことを100回繰り返した時に4回程度しか起こらない・・・と言うかなり稀な現象が目の前で起こったことになります。

質問です⇒ あなたはこの結果から、このサイコロはいかさまだ!と思いますか?

実験3: 1個のサイコロを続けて3回振ったとき、3回とも4の目が出た。

⇒ この様な現象が 正しいサイコロ で起こる確率は

1/6×1/6×1/6=1/216=0.46%

となります。この確率は、「サイコロを3回振る」ことを1000回繰り返した時に5回ほどしか起こらない・・・と言う極めて稀な現象が目の前で起こったことになります。

質問です⇒ あなたはこの結果から、このサイコロはいかさまだ!と思いますか?

******************************

メディカル翻訳のクラスで、受講生に実験1~3のどこで、このサイコロはいかさまだ!と思ったかを聞いたところ、実験1から実験3にかけてハイと答えた人数は増えていきましたが、実験3の結果を見てもまだイイエと答えた人もいました。

この実験で「正しいサイコロで起こる確率」を計算しましたが、統計解析では、この計算した確率を P値 と呼んでいます。

そして、統計解析が出来るのはここまでなのです。

統計解析、このP値が結果として「有意(significant)=サイコロがいかさま」なのかどうかを、示してくれないのです。

じつは、結果が有意かどうかを判断しているのは・・・人間なのです。

数学者の中には 「統計学的検定」は数学ではない! と言う人がかなりいます。その理由は、数学の世界には『人間の判断』なんてものは入ってこないからです。

 統計学的検定とは

上で示した「いかさまサイコロ」を見破る実験での、目的は・・・実験したサイコロが「いかさま」であることを証明することでした。

言い換えると、「正しいサイコロとは同じでない」ことを示したい。

さらに控えめに言えば「正しいサイコロとは言いがたい・・・ことを証明したかったのです。

統計学的検定とは、論理学での「背理法」という理論を使って、

同じだとは言いがたい

ことを示して、結論を導く解析手法なのです。

背理法の原理は;

① 証明したい仮説を立てる ⇒ このサイコロはいかさまである

② ①を打ち消す(反対の)仮説を立てる ⇒ このサイコロは正しい(いかさまではない)

③ 実験などで②では説明のつかない(矛盾する)事象を見つけ出す ⇒ 正しいサイコロでは極めて起こりにくい(4の目が3回続けて出る)ことが起こっている

④ だから②の(反対の)仮説は誤りであり、よって、(排反の)①の「このサイコロはいかさまである」が支持される   ということです。

 検定と帰無仮説

この様に背理法には、真に証明したい仮説と反対の、それを打ち消す仮説が必要になります。

統計学的検定では、この否定するための(反対の)仮説を「帰無仮説Null hypothesis)」と言います。

研究者にとっては「無に帰してほしい」、好ましくない仮説・・・と言う意味です。

検定は、帰無仮説の下では、極めて起こりにくいことが起こっているので、帰無仮説は誤りである・・・という論理展開に持っていくのですが、帰無仮説が誤りであることが証明出来た時を「帰無仮説を棄却する」と言います。

ところが、確率を扱っている統計解析では、 帰無仮説が起こる確率が0 ということはなかなか証明出来ません。

豆知識: 数学の世界では、例えば「三角形の内角のうち少なくとも1つは60°以上である」という仮説を背理法で証明する場合、帰無仮説は「三角形の内角は全て60°未満である」となりますが、三角形の内角の和は必ず180°になるので、「三角形の内角は全て60°未満である」という事象が起こる確率は0となります。 ← はっきりしていて良いですよね!

例えば、上述の実験3で「3回とも4の目が出る」という確率は、正しいサイコロであっても P=0.46% の可能性がありますので、帰無仮説が完全に誤りとは言えないのです。

さらに、人間の判断は極めてあやふやですので、実験1で「いかさまだ!」という人もいれば、実験3でも「いかさまとは言えない」という人もいるのです。

これではScience(科学)とは言えませんよね。

 有意水準

人間のfeelingやimpressionをscienceにするための手段が「有意水準significant level)」です。通常、これをα(アルファ)で表します。

実験などの結果として得られたP値が「極めて起こりにくい」かどうかを判定する限界値のことです。

統計学的には有意水準αをどの様な値にしても良いのですが、一般的観念や厚労省、FDAなどの指導では5%(α=0.05)もしくは1%(α=0.01)が使われます。

例えば、有意水準をα=0.05とした場合、結果として得られたP値がこのα=0.05(5%)り小さければ、この結果は「有意」となり、帰無仮説が棄却されて、研究者が証明したい仮説が採択されることになります。

ただし、結果を見てから有意水準αを決めるのではscienceになりませんので、有意水準αは実験を始める前に決めておく必要があります。

上のいかさまサイコロ実験で見ますと、有意水準をα=0.05とした場合、実験2のP値は3.7%で、有意水準5%より小さいですから、「3回とも1または2の目が出る」という結果は有意であり、このサイコロは「いかさま」と判定します。

一方、有意水準をα=0.01としますと、実験2のP=3.7%は1%より大きいので、有意とはなりません。しかし、実験3のP値は0.46%と1%より小さいですから、「3回とも4の目が出る」という結果は有意であり、このサイコロは「いかさま」と判定します。

この様に、有意水準αを小さい値にすると、有意とはなりにくく、逆に、有意水準αを大きい値にすると、有意となりやすくなります。

この有意水準の意味するところは、実験の結果が「有意」となった時に、それが間違いである危険性のことです。

つまり、実験3のP値=0.46%の意味は、サイコロが正しい場合に「3回とも4の目が出る」可能性が0.46%ある・・・と言うことですので、本当はいかさまではないのに、それを有意(サイコロはいかさま)と過剰反応してしまう危険性が有意水準分だけあることを意味しています。

過去の受講生の中には「有意水準5%では確率が高すぎる!」と言われる方もいますが、有意水準5%とは、100回同じ実験を行ったときに、5回ほど過剰反応してしまうことがある・・・ということで、決して高い確率ではありません。

5%(100回に5回)がどれほど起こりにくいかを、実験してみましょう。

サイコロをころがす別のサイトがあります(こちら)。このサイトの左上の四角( 1D100と書かれているところ)の「ダイスロール」のボタンをクリックしてみてください。

そして、96~100のいずれかの目が何回目に出るかを試してみてください。(出た目の履歴は右側のダイスログの欄に出てきます。)

実際には、有意水準5%とは、第1回目のクリックで96~100のいずれかの目が出る確率です(2回以上クリックは出来ません)。確率5%は、感覚的には殆どゼロですよ!

ここで1D100とは、1~100の目を持った1個のサイコロを振る と言う意味です。また?ウインドウが両方とも0の場合は100の意味です。

 有意ではない・・・とは

統計学的検定の結果の解釈で多いのが、「有意ではない」ことをもって、帰無仮説が正しい、つまり、研究者が証明したい仮説が間違っている・・・と誤解してしまうことです。

「有意ではない」とは、極めて稀な事象ではない、つまり、帰無仮説の下でも往々にして起こりえる事象だ・・・ということで、今回の結果が、帰無仮説に基づいたものなのか、研究者が証明したい仮説に基づいたものなのか区別がつかない、と言うことです。

従いまして、「有意ではない」ことをもって、帰無仮説(サイコロは正しい)が証明されたことにはならない、と言うことに注意してください。

 まとめ

  • 統計学的検定は「背理法」を使った分析法で、ある仮説(帰無仮説)の下では極めて起こりにくいことが起こっているので、この仮説は間違いである・・・と結論する方法
  • P値とは実験などの結果として得られた確率値のことで、「(帰無仮説の下では)極めて起こりにくいこと」の程度を表しています。
  • このP値が事前に決めた有意水準αより小さければ、検定の結果を「有意」とし、研究者が証明したい仮説が支持されたことになります。

 

以上、P値と統計学的検定の話を出来るだけ数式を使わずに解説してみました。

「ここがよく解らない」という説明の部分がありましたら、お知らせ下さい。

デハデハ

広告