皆さんこんにちはPartner of Medical Translatorsの津村です。

今日は、メディカル文書のデータ解析、統計解析でよく出てくる95%信頼区間(95%CI:95% Confidence Interval)についてお話ししましょう。

臨床試験の医学論文や総括報告書を見ていますと次の様な記述をよく見かけます。

例文:On analysis according to protocol, at day 20, in the 74 remaining patients, 12/35 (34%) in the Control Group and 22/39 (56%) in the Study Group were considered as success (difference 22.1%; 95% CI for the difference 0.0 to 44.2).

この文を読むと、Control Groupの成功率が34%でStudy Groupの成功率が56%と言うことは解りますが、いわゆるP値がないので、この二つの成功率は統計学的に有意なのかどうか解りません。

この95%CIと言うのが95%信頼区間のことですが、この値に秘密がありそうです。

 点推定と区間推定

 点推定:Point estimation

以前に「平均値と標準偏差」の話をしましたが(詳細はこちら)、沢山のデータ(測ったデータ)を要約する時には、データー集団の大体の位置や大きさを示す代表値として平均値(Mean)を計算します。

この代表値である平均値は、神様しか知らない「真の値」の最も良い推定値(estimate)になります。

ただし、平均は単にひとつの数値として表現され、その数値はある特定のポイント(点)しか指していません。この特定のポイント(点)しか指していない代表値のことを、統計学では「点推定(Point estimation)」の値と言います。

 標準誤差:standard error of the mean

しかし、私達は経験的に、同じ様なデータをもう一度同じ数だけ集め直してその平均値を求めると、前の平均値とは違う値になる(極めて偶然的に同じ値になることもありますが・・・)、と言うことを知っています。

それを何回も繰り返して、平均値を沢山集めると、その平均値集団の「平均値」と「標準偏差」が計算できます。

ここで、標準偏差は個々のデータが平均値から離れている距離(これを偏差[deviation]と言います)の平均を意味しています(詳しくはこちら)。

これを図示すると以下の様になり↓、この様な山形の曲線を「分布(Distribution)」と言います。

平均と標準偏差

この分布の元データは平均値ですので「平均値の分布」と呼ばれますが、この平均値の分布から求めた標準偏差のことを「標準誤差(SEM:standard error of the mean)」と言います。

 標準誤差の特徴

この標準誤差は生データから求めた標準偏差(SD)とは違う特徴を持っています。

生データから求めた標準偏差(SD)は生データの個数が変わっても変わる事はありませんが、標準偏差(SEM)はデータである個々の平均値が何個の生データに基づいているかで、値が変わります。

これも、私達は経験的に知っているのですが、10個の生データから求めた平均値よりも、50個の生データから求めた平均値の方が信用でき、50個の生データから求めた平均値よりも、100個の生データから求めた平均値の方が信用できる・・・と言うことを知っています。

ここで「信用できる」とは、同じ行為を繰り返して平均値を求めても、10個の生データの時は結構違った平均値になりますが、100個の生データの平均値は殆ど同じ値になるということです。つまり、平均値のバラツキ、即ち、標準誤差が10個の生データの時よりも50個、100個の時の方が小さくなる・・・と言うことです。

これを図示すると以下の様になります↓。

 生データの個数による標準誤差の違い

この様に、平均値の分布は何個の生データから平均値を計算したかによって、様相が違ってきます。

そして、この標準誤差はデータの標準偏差(SD)があれば、以下の式↓で計算することが出来ます。

 標準誤差(SEM)の計算式

ここでNは平均値を計算した生データの個数です。

この式から解りますように、N、即ち、生データの個数が増えれば増えるほど、SEM(標準誤差)の値は小さくなります。

豆知識:何故(N-1)と生データの個数から1を引くのか?という理由ですが、1を引かないと、SEM(標準誤差)が実際の値よりも過小評価されるからなのですが、ここでは「そういうもんだ」というレベルで覚えてください。この1を「天使の取り分」という人もいます。

 区間推定:interval estimation

データ集団の代表値である平均は「点推定値」だと申しあげましたが、この平均値=点推定値は標準誤差(SEM)というバラツキを伴っています。

バラツキが小さい方が、計算して求めた平均値=点推定値が「信用できる」つまり、精度がよいことになります。

従いまして、平均値=点推定値がどのくらい信用できるものか?と言うのをこのバラツキ=標準誤差(SEM)を使って表現しよう・・・と言うのが「区間推定(interval estimation)」の発想です。

上で示した図での山形の分布は「正規分布(Normal distribution)」と言われるもので、平均値を計算した大元の生データがどんな分布の形をしていようとも、そこから計算した平均値の分布は生データの個数が多いほど正規分布に近づくことが解っています(生データの個数が20個以上になると平均値の分布は正規分布となります)。

この正規分布の特徴は、平均値±1×標準偏差(SD)の範囲内に全データの約2/3が含まれることです。さらに、平均値±2×標準偏差(SD)の範囲内に全データの95.45%が含まれます↓。

 ここでσは標準偏差(SD)のこと

このことから、みなさん薄々気付かれているかと思いますが、全データの95%が含まれる範囲は平均値±1.96×標準偏差(SD)となります。

この理屈を平均値の分布に当てはめますと、平均値±1.96×標準誤差(SEM)の範囲内に全ての平均値の95%が含まれることになります。

この区間のことを (平均値の)95%信頼区間 と言い、この区間を求めることを「区間推定」と言います。

 95%信頼区間とは

 何故95%なのか?

「95%なんてケチなことを言わずに100%すればいいじゃん!」と思いませんか?

上の正規分布の図は±3×σの範囲しか図示していませんが、実は、正規分布の山形の曲線は横軸に限りなく近づいていきますが、何処まで行っても横軸にくっつく(即ち、縦軸の値がゼロになる)ことはありません。

統計学の世界で扱っている分布の曲線は確率密度分布(probability density distribution)と言われるもので、ある事象が発現する確率を表しています。

「私がこれから芸能界にデビューして花形のイケメンスターになる」と言うことは極めてあり得ないことですが、確率論的にはゼロではありません。

ですから「100%信頼区間」というのは 平均値±∞(無限大) になってしまって、区間推定が意味をなさなくなります。

つまり、5%をあきらめることで、実用的な区間推定が出来るようになるのです。

また、統計解析的にこの5%というのは極めて重要な意味を持っています。

統計解析の有意差検定とは、例えば、冒頭のControl GroupとStudy Groupの成功率に「差がない」と仮定したときに、今回の結果、Control Groupの成功率が34%でStudy Groupの成功率が56%と言う結果が偶然に起こる確率が5%より大きいか小さいかで有意と判定するかどうかが決まります(確率が5%より小さい場合に「有意(Significant)」と判定します)

この有意差検定の考え方を応用すると、平均値の95%信頼区間の中に「神様が決めた真の値」が含まれていない確率は5%となります。この時、計算した平均値と「神様が決めた真の値」の有意差検定をすると、統計学的に有意になります。

これを逆に言いますと、平均値の95%信頼区間とは、平均値と「神様が決めた真の値」が統計学的に有意に離れていない範囲、即ち、平均値の95%信頼区間とはその範囲内に「神様が決めた真の値」が含まれている確率が95%ある・・・と言うことが言えるのです。

 95%信頼区間を見れば検定結果が解る!

この95%信頼区間を使いますと、わざわざ群間の有意差検定を行わなくても、検定結果が解るのです。

 ケース1

例えば、Control Groupの成功率の95%信頼区間が[AAA~BBB]で、Study Groupの成功率の95%信頼区間が[CCC~DDD]であった場合、

  • 信頼区間[AAA~BBB]と[CCC~DDD]に重なりがなければ、Control Groupの成功率とStudy Groupの成功率は有意に異なっていることになります。
  • 一方、信頼区間[AAA~BBB]と[CCC~DDD]に重なりがあれば、Control Groupの成功率とStudy Groupの成功率は有意に異なっているとは言えない事になるます。

 ケース2

例えば、Control Groupの成功率Study Groupの成功率の差を求め、その差の95%信頼区間が[EEE~FFF]であった場合を考えてみましょう。

この様に、代表値の差を取った場合、両群の成功率が同じ(差がない)ならば、差=0(ゼロ)となります。

  • 差の信頼区間[EEE~FFF]が0(ゼロ)を含んでいなければ、Control Groupの成功率とStudy Groupの成功率は有意に異なっていることになります。
  • 一方、信頼区間[EEE~FFF]が0(ゼロ)を含んでいる場合は、Control Groupの成功率とStudy Groupの成功率は有意に異なっているとは言えない事になります

 ケース3

例えば、Control Groupの成功率とStudy Groupの成功率の比を求め、その比の95%信頼区間が[GGG~HHH]であった場合を考えてみましょう。

この様に、代表値の比を取った場合、両群の成功率が同じ(差がない)ならば、比=1 となります。

  • 比の信頼区間[EEE~FFF]が1を含んでいなければ、Control Groupの成功率とStudy Groupの成功率は有意に異なっていることになります。
  • 一方、信頼区間[EEE~FFF]が1 を含んでいる場合は、Control Groupの成功率とStudy Groupの成功率は有意に異なっているとは言えない事になります。

この様に、信頼区間を求めることで、平均値や成功率の正確さが評価できると同時に、その統計学的有意差検定の結果まで知ることができる様にするために、95%と設定しているのです。

以上の事を踏まえて、冒頭の例文をもう一度見てみましょう。

例文:On analysis according to protocol, at day 20, in the 74 remaining patients, 12/35 (34%) in the Control Group and 22/39 (56%) in the Study Group were considered as success (difference 22.1%; 95% CI for the difference 0.0 to 44.2).

Control GroupとStudy Groupの成功率の差22.1%の95%信頼区間が[0.0~44.2%]となっていて、差の信頼区間が0(ゼロ)をギリギリ含んでいますから、Control Groupの成功率とStudy Groupの成功率は有意に異なっているとは言えない・・・という結論になっていることが解ります。

95%信頼区間って、便利ですよねぇ! デハデハ

お知らせ: ISSインスティテュートで、6月と7月に短期集中コースを行うことに決定しました。いずれも3回完結で、「翻訳や通訳に必要な知識」という目線でお話しします。

どちらも木曜日の午後7時~9時に行います。詳しくはこちら

医薬翻訳のための「基本から学ぶ、がんの病態」6/20, 27, 7/4
医薬翻訳のための「基本から学ぶ、統計解析」7/11, 18, 25

広告