皆さんこんにちはPartner of Medical Translatorsの津村です。

今日は、Propensity score (傾向スコア)を使ったちょっと珍しいお仕事を受けたので、そのPropensity score についてお話ししたいと思います。

 Propensity score (傾向スコア)とは

”Propensity score”、日本語で「傾向スコア」と言いますが、国内でも英語でPropensity scoreと呼ばれることが多いです。

これは、すでに収集してあるデータを評価するretrospective study(後ろ向き調査/研究)でよく使われる手法で、すでにあるデータを使いながら、あたかもprospective(前向き)の無作為化比較試験(RCT:randomized-control trial)の様な評価が出来る魔法のような手法です。

一言で表すのが難しいので、ある簡単な事例を使って説明しましょう(これはフィクションです)。

 試験の概要

ある精神科のクリニックでは、独自の治療法を開発し、うつ病の患者さんの治療をしてきました。この治療法を使い始めてから1年ほどが経過したとき、クリニックの医師達はこの治療法がうつ病の改善にかなり効果がありそうだと思いました。

そこで、この新治療法の効果を、通常の治療法(つまり、新治療法を使っていない)と比較してみようと考えました。

通常であれば、現在ただ今から、受診に訪れた新患のうつ病患者を、無作為に新治療法を施す被験群と施さない(通常治療の)対照群に割付ける無作為化比較試験を行って比較検討するのですが、そのためには費用と人手と時間がかかります。

そこで、クリニックに保管してある過去1年間のうつ病患者の診療記録を基に、retrospective study(後ろ向き研究)を行うことを計画しました。

とりあえず、各30例の被験群と対照群のデータを集計して、改善率を計算してみたところ、被験群の改善率が70%(21/30例)、対照群が40%(12/30例)となり、フィッシャーの直接確率検定で被験群が有意に優れると言う結果になりました(P=0.037)。

そこで、この成績を論文化すべく、本格的にデータ解析を行いました。その結果・・・

・・・

患者の背景因子の項目に幾つか有意差が出てしまいました。その項目とは・・・

  • 性別:被験群の方が女性が多い
  • 年齢:被験群の方が平均年齢が低い
  • 婚姻歴:被験群の方が既婚者が多い
  • 罹病期間:被験群の方が平均罹病期間が短い

この様に患者の背景因子に有意差が出てしまったので、各群の30例は同じ特性ではなく、改善率を単純に比較する訳にはいかないことが解りました。

 Propensity scoreの出番

この様に、既存のデータを使ったretrospective studyでは、被験群と対照群の特性が違っていることがよくあります。

この原因は、担当医師がある治療法を施すかどうかを判断する時に、意識しているかどうかに係わらず、効きそうなあるいは副作用の出なさそうな患者を選んでしまっているからです。

そのため、臨床試験では無作為化が必須になるのです。

上の事例では、担当医師が無意識のうちに新治療法が効きそうな患者を選んでしまったので、被験群の改善率の方が高くなってしまったのです。

この様な時に威力を発揮するのがPropensity score (傾向スコア)です。これは、両群の患者特性(背景因子)をロジスティック回帰という手法でスコア化し、被験群と対照群でスコアが一致した患者同士を比較する・・・と言った、マッチングの方法です。

被験群と対照群の患者特性がマッチしていますから、Propensity scoreで選別された患者群の間の特性(背景因子)は揃ってきます。したがって、めでたく、評価指標である改善率を比較することが出来る・・・ということです。

つまり、被験群と対照群の比較など全く念頭になかった過去の診療記録から、Propensity scoreを使って、あたかも新たに比較試験を行ったかのような結果が得られるという極めて便利な方法です。

一方で、スコアが合致した者同士を比較するのですから、合致しない患者も出てきます。つまり、Propensity score を使うと解析に使える例数が減る・・・と言うことになります。極端な場合は、スコアが合致した患者がいない!つまり、解析対象例が0(ゼロ)という場合もあります。

 Propensity scoreの求め方

では、その便利なPropensity scoreはどの様に計算されるのでしょうか?

Propensity scoreを計算するためには、多変量解析(multivariate analysis)のひとつであるロジスティック回帰分析(logistic regression analysis)と言う手法を使います。

 ロジスティック回帰分析

例えば「新治療法を使ったか使わなかったか」とか「うつ病が治ったか治らないか」と言うような、Yes/Noの結果に対して、ある患者背景の特性を持った患者が、Yes(新治療法を使った、あるいは、うつ病が治った)という結果になる確率を計算する手法です。

上の事例で言えば、結果(これを応答変数と言います)を 新治療法を使った=1新治療法を使わなかった=0 として、この結果に影響を与えている背景因子(これを説明変数と言います)を 性別年齢婚姻歴罹病期間 とするとき、両群の各患者について、新治療法を使った=1 となる確率Yは、次の式で求められます;

とまぁ、こんなもんだと思って下さい。ここで、Yは確率ですから、0~1の間の数値を取ります。

実際には、結果に影響を与えると考えられるありとあらゆる背景因子やベースライン特性を説明変数にぶっ込みますが、ここでは簡便のために4変数だけにしています。

この値が1に近いほど「新治療法を使う」可能性が高く、0に近いほど「新治療法を使わない」可能性が高いことを示しています。この値が0.5とは、新治療法を使うか使わないかは五分五分と言うことです。

豆知識:上の式でExpとは指数を表しています。

指数とは、37と言うように表されて「3」を、「7」をべき数と呼びます。特にExpと表現した場合は、自然対数を意味し、底がe(=2.71828・・・)[これをネイピア数と言います]となります。

ですから、上の式をうんと簡単に表すと Y=1/(1+ex) という形になります。

 マッチングをする

ロジスティック回帰分析で、各患者のY(確率値)は次の様になります。

対照群(抜粋)

患者No.

処置群

確率Y

139

0

0.609409

140

0

0.493566

141

0

0.401406

142

0

0.294786

143

0

0.751558

144

0

0.295218

145

0

0.295218

146

0

0.670641

147

0

0.401406

148

0

0.883509

被験群(抜粋)

患者No.

処置群

確率Y

270

1

0.528858

271

1

0.528858

272

1

0.776995

273

1

0.642953

274

1

0.642953

275

1

0.529376

276

1

0.603667

277

1

0.325441

278

1

0.603667

279

1

0.529376

この様にして求めた確率Yが Propensity score (傾向スコア) となります。

ここでは、全ての説明変数をぶっ込んでいるわけではないので、ある程度不確かな確率値Yですが、例えば、対照群の患者 No.139(0.609409)、No.143 (0.751558)、No.148(0.883509)等のように、確率Yが0.5よりも大きく、1に近い患者は、実際は新治療法を受けていませんが、確率的には受けてもよかった症例ということです。

一方、被験群の患者No.277(0.325441)は、確率Yが0.5よりも小さく、0に近いですから、実際は新治療法を受けていますが、確率的には受けなくてよかった症例となります。

各症例の確率Yが計算出来ましたら、対照群の患者と被験群の患者のマッチングを行います。例えば、対象群の患者No.139(0.609409)は被験群の患者No.276(0.603667)とほぼ同様の確率を示していますので、この2例をマッチングします。

この様に、被験群と対照群で確率値Yが類似している被験者をマッチングさせて、新たな被験群と対照群を選定します。このとき、残念ながらマッチングの相手が見つからなかった患者は、解析対象から外されます。

以上が、Propensity score (傾向スコア)の求め方と使い方です。

 Propensity score (傾向スコア)の注意点

以上に示した様にPropensity scoreは極めて有用な手法ですが、良いことばかりではなく、欠点もあります。

 記録していない因子を加味できない

当然のことですが、Propensity scoreに影響を与えそうな因子があっても、そのデータを記録していない場合は、その因子を加味したPropensity scoreは計算出来ません。

ProspectiveなRCTの場合は、無作為割付けの効果で、加味していない因子があってもランダム化によって両群に均等に割付けられ、バランスが取れるように出来ています。

従いまして、背景因子等が極めて少ない過去データなどでは適正なPropensity scoreが計算出来なくなります。

 見た目に騙されることがある

Propensity scoreを使った解析をみると、背景因子などの患者特性がきちんと揃っていますので、その解析結果は信憑性が高いように感じてしまいます。しかし、実施者が意識的にある因子を加えなかったり、無意識に加え忘れたりすることがあります。

Propensity scoreを使った研究を計画したり、あるいは、人の研究成果を評価する様なときには、重要な患者特性因子が抜けていないかどうかを慎重に吟味する必要があります。

 症例数が減ります

前にも触れましたが、スコアのマッチングが出来た症例だけを解析対象としますので、マッチングが出来なかった症例が除外され、結果として、解析対象例が減ります。

また、スコアが極めて1に近かったり0に近いと、除外される可能性が高いので、解析対象集団内の変動幅がこじんまりとなってしまう可能性があります。つまり、真の母集団を代表していない集団となる可能性があります。

本日は、Propensity scoreという少々マニアックな解析方法のお話しをしましたが、最近の医学系論文等でしばしば目にするようになってきましたので、覚えておかれると良いでしょう。

デハデハ