皆さんこんにちはPartner of Medical Translatorsの津村です。
前回の「P値ってなんだ?(詳細はこちら)」では、いかさまサイコロを見破る方法を紹介しました。
今日は、その延長で、2群の比較をするときのP値について考えてみましょう。
もくじ
2群の比較とは
新しい医療技術や新薬を開発する際には、新規の技術や薬物を既存の代表的なものと比較することで、その新規性をアピールすることが出来ます。
ということで、メディカルの分野では「2群の比較(例えば、新薬vs既存薬)」という場面が多く出てきます。
ここでは、「新薬Aの有効性をプラセボ(有効成分を含んでいない偽薬)と比較する」という事例を使って、2群の改善率(有効性)を比較する時のP値について説明します。
プロトコール
想定する臨床試験の計画としては・・・
中等度の心不全(心臓の機能が低下して、全身に十分な血液を送れなくなる病気)患者1000例を、無作為に 実薬Aを投与する群(実薬群) もしくは 効果の無いプラセボを投与する群(プラセボ群) に割付け(1群500例)、試験期間中に心拍出量(1回の心拍で心臓から押し出される血液の量)が正常値の80%以上に回復した患者を「改善」として、実薬Aとプラセボの改善率を比較する。
メディカルの研究ではこの様に、改善したかしないか、とか、副作用が出たか出ないか、と言うようなYes/Noデータで有効性や安全性を評価することが多くあります。
この様なYes/Noデータのことを二値データ(binary data)と言います。そして、2群比較の二値データは2×2分割表(2×2 contingency table)で表現することが出来ます。
試験結果
上記のプロトコールで臨床試験を実施したところ、次の様な結果が得られたとしましょう。
表1:試験結果
実薬A | プラセボ | 合 計 | |
改 善 | 87 | 63 | 150 |
非改善 | 413 | 437 | 850 |
合 計 | 500 | 500 | 1000 |
実薬群(実薬A投与)の改善率は17.4%(87/500)、プラセボ群(プラセボ投与)の改善率は13.6%(63/500)となりました。
改善率のパーセンテージだけを見ると、実薬群の方が3.8%ほど高値なので、実薬Aの方が効果がありそうですが、果たしてそれが統計学的に示せるでしょうか?
2×2分割表の検定
上記のような2×2分割表にまとめられる、2群の割合(改善率など)を統計学的に検定してみましょう。
まず、検定を行うための仮説と有意水準を決めましょう。
- 作業仮説(証明したい仮説):実薬Aの改善率とプラセボの改善率は異なる。
- 帰無仮説(検定で否定したい仮説):実薬Aの改善率とプラセボの改善率は同じである。
- 有意水準:α=0.05(5%)
この帰無仮説が正しいとすると、合計150人の改善した被験者が、実薬群になるかプラセボ群になるかは50:50と言うことです(投与される薬剤に関係ない)。
この時の理論的な2×2分割表の結果は次の様になり、理論的な改善率は両群とも15%(75/500)となります。
表2:帰無仮説での理論値
実薬A | プラセボ | 合 計 | |
改 善 | 75 | 75 | 150 |
非改善 | 425 | 425 | 850 |
合 計 | 500 | 500 | 1000 |
しかし、実際には常に75対75になる訳ではありません。
例えば、この150人が順番にサイコロ(1~6の目)を振って、奇数(1か3か5)なら実薬群、偶数(2か4か6)ならプラセボ群に割り当てる実験(シミュレーション)を10回繰り返してみましょう。
結果は次の様になりました。
表3:帰無仮説の下でのシミュレーション結果
投与群 | 1回目 | 2回目 | 3回目 | 4回目 | 5回目 |
実薬A | 73 | 78 | 73 | 74 | 61 |
プラセボ | 77 | 72 | 77 | 76 | 89 |
投与群 | 6回目 | 7回目 | 8回目 | 9回目 | 10回目 |
実薬A | 75 | 71 | 79 | 66 | 75 |
プラセボ | 75 | 79 | 71 | 84 | 75 |
どれも合計は150ですが、75対75になったのは6回目と10回目の2回だけで、それ以外は違う組合わせになっています。
注目すべきは5回目で、理論値の75から±14も離れた組合わせも出ています。
従いまして、表1の試験結果87対63(理論値75から±12の乖離)は、帰無仮説の下で偶然に起こった結果・・・ということになり、この時のP値が計算できれば有意かどうかが解ります。
P値を求める
二値データの分布を二項分布(binominal distribution)と言いますが、この2項分布は試行回数と期待確率で分布(曲線)の形が決まります。
今回の実薬Aとプラセボの比較では、1群の試行回数が500(例)、期待確率が15%(表2)となります。この2項分布は以下↓の様になります。
図1.2群の改善率の比較での二項分布
試行回数が500回、期待確率が15%ですから、最も期待される頻度は75(500×0.15)となりまして、このとき75が出る期待確率は4.99%となります。
ところが、シミュレーション(表3)で見たように、あくまで75は期待値ですから、実際にはその前後の74(出現率:4.97%)や76(出現率:4.93%)もほぼ同じ割合で出てきます。
図1のグラフから、今回の2群の比較の結果(表1)の出る確率も求められ、実薬Aの87が1.59%、プラセボの63が1.64%となりますので、帰無仮説の下で、実薬Aが87例でプラセボが63例となる事象が同時に起こる確率は・・・
1.59%×1.64%=2.61%
となります。
これが求めるP値・・・・・・と言いたいところですが、もう一工夫する必要があります。
帰無仮説の下である事象が起こる確率を求める場合は、分布においてその事象より外側の面積を合計しなければなりません。
図2.2群の比較でP値に含まれる範囲
つまり、プラセボ群が63例より更に少なくなる確率と、実薬群が87例より更に多くなる確率を加味する必要があるのです(図中の矢印で示したエリア)。
しかし、ノベタンで全ての確率を足す訳にはいきません。なぜなら、今回の試験では表1に示した様に、実薬群とプラセボ群の改善例の合計が必ず150例にならないといけないからです。
つまり、[87,63]、[88,62]、[89,61]、[90,60]・・・、[150,0]という各組合わせの確率を求めていきます。
合計が150例となる実薬群とプラセボ群の改善例の組合わせとその確率の例(抜粋)を以下に示します。
表4.2群の比較でのP値の計算(抜粋)
実薬群の例数 | プラセボ群の例数 | 合計例数 | 合計確率 |
87 | 63 | 150 | 1.59%×1.64%=2.61% |
90 | 60 | 150 | 0.87%×0.84%=0.73% |
95 | 55 | 150 | 0.24%×0.19%=0.05% |
100 | 50 | 150 | 0.05%×0.03%=0.0015% |
110 | 40 | 150 | 0.0008%×0.0001≅0.0% |
・・・・・(以下、ほぼ0.0%) |
(各頻度での確率は、Excel関数BINOM.DISTで計算できます。試してみてください。)
この様に、[95,55]以降の組合わせの確率はほぼ0.0%となります(しかし、完全に0%ではありません)。
と言うことで、合計が150例となる例数の組合わせの内で、両群の改善例が[87,63]以上に離れる組合わせの確率を全て合計すると 0.0414(4.14%) となり、これが求めるP値となります。
P=0.0414(4.14%)は有意水準:α=0.05(5%)より小さいですから、帰無仮説(実薬Aの改善率とプラセボの改善率は同じである)の下では、極めて起こりにくいことが起こっているので、この帰無仮説は棄却され、今回の結果は「有意(significant)」となります。
つまり、表1の結果より、「実薬Aの改善率とプラセボの改善率は異なる(実薬Aの方が統計学的に有意に優れる)」ということになります。
分割表の独立性の検定
上記の様な分割表の検定を行うことを「独立性の検定(test for independence)」と言います。
何が独立かと言いますと、行の因子と列の因子に関連性があるかないか?と言うことで、関連性が無ければ、つまり、有意でなければ「行の因子と列の因子は独立」と言うことが出来ます。
表1の試験結果で説明しますと、合計1000例の患者の心不全が治療で改善するかしないか(行の因子)は、実薬Aを投与するかプラセボを投与するか(列の因子)とは無関係(独立)である・・・かどうかを検定することになります。
検定の結果、実薬Aの改善率はプラセボと有意に異なる・・・となったことから、
-
- 合計1000例の患者の心不全が治療で改善するかしないか(行の因子)は、実薬Aを投与するかプラセボを投与するか(列の因子)に依存する(独立ではない)
と判断されたことになります。
Fisherの正確確率検定
また、上で説明したように、個々の該当する場合の事象の確率を直接計算して、その合計でP値を求める方法を「Fisherの正確確率検定(Fisher’s exact probability test)]と言います。
実際のところ、上で説明したようなFisherの正確確率検定は計算量が膨大になりますので、通常は、その近似形であるカイ二乗検定(χ2 test)というものを行います。
しかし、PC等のコンピュータが発達・普及した現代では、計算量は問題とならないので、特に2×2分割表の解析等はFisherの正確確率検定が主流となっています。
豆知識:割合と比率
割合と比率は似て非なるもですが、かなり混同されて使われています。 割合(rate)とは、全体に対するある特性を持った事象・物のパーセンテージを意味します。今日紹介した事例の「改善率」は全被験者に対する改善した症例のパーセンテージ(87/500=17.4%)の様に、単位が%(パーセント)で表せる数値のことです。 一方、比率(ratio)とは、ある会社の社員の男性と女性の構成比の様に、例えば3:2とか2/3倍とかで表され、何倍あるいは分数での表記となります。 よく、「タバコを吸う人が肺癌になる危険性は吸わない人の3.5倍になる」というような表現を見かけますが、この3.5倍という数値は比率(リスク比と言います)でして、タバコを吸う人の肺癌の罹病率(割合:パーセント)を吸わない人での肺癌の罹病率(割合:パーセント)で割った値となります。 |
以上、2群の改善率などの2値データ(Yes, Noデータ)の比較を行う場合のP値の求め方を解説しました。
出来るだけ平易に解説したつもりですが、お解りいただけましたでしょうか。
デハデハ