皆さんこんにちはPartner of Medical Translatorsの津村です。
メディカル(医薬)翻訳の対象となる、医学系論文や医薬品等の承認申請データでは必ずと言って良いほどに図表(Figures)が出てきます。
今日は、データ解析(data analysis)や統計解析(statistical analysis)に欠かすことの出来ない図表(Figures)についてお話ししたいと思います。
もくじ
データの見える化(Visualization)
臨床試験や動物実験などで得られたデータ(通常は数値データ)をraw dataと言いますが。10個~20個程度のraw dataであれば、個々のデータを並べて眺めればそのデータ群の特徴は大体掴めます。
しかし、データ数が100個、200個・・・と増えていきますと、個々のデータを並べてもデータの全体像はなかなか掴めません。
そこで、データの全体像を見える化(Visualization)する必要が出てきます。見える化する目的は、データの特性を読者に解りやすく伝えることです。
代表的な見える化の方法としては、データのグラフ化です。
グラフと言えば、円グラフや棒グラフ、散布図などが思い浮かびますが、グラフにはそれぞれ特徴があります。データの種類や性質を見極めた上で、グラフ化する目的に適したグラフを使う必要があります。
まずは、代表的なグラフを紹介しましょう。
円グラフ:Pie chart
円グラフ↓は、その名の通り、円形(扇形)である特性の構成因子を表示したものです。
この例は、「好きな果物」について聞いたアンケートの結果です。円全体を100%として、各果物を好む人の割合(%)を扇形で示しています。
この様に、円グラフはあるひとつの特性(例えば「好きな果物」)の構成比を表示するのに向いています。つまり、面積の大きい構成要素の方が、好きな人が多い果物・・・と言うことになります。
構成要素(りんご、いちご、さくらんぼ・・・等)はお互いに関連性がありませんので、ならぶ順番を変えても(さくらんぼ、バナナ、りんご・・・)、円グラフの意味するところに違いはありません。
豆知識: りんご、いちご、さくらんぼ の様に、お互いに関連性が無く、並べる順序を変えても意味が変わらない変数(variable)のことを「名義尺度(nominal scale)」と言います。
一方、並び順に意味のある変数、例えば、「著明改善、改善、不変、悪化」とか「優、良、可、不可」とか「中卒、高卒、大卒」などの様に、並び順を変えると意味が違ってくる変数を「順序尺度(ordinal scale)」と言います。 これらの名義尺度と順序尺度のデータは、基本的に「数えたデータ(例えば、1個、2個とか1件、2件とか1人、2人・・・など)」ですので、整数の値になります。この様な、数えたデータのことを「離散データ(discrete data)」と呼びます。 |
ただし、円グラフは2つ以上の特性の比較(例えば、男性と女性での好きな果物の違いや中国と米国とフランスでの好きな果物の違いなど)には向きません。
また、経時的なデータの表示にも向きません。
棒グラフ:Bar chart
棒グラフ↓は、ある量的データ(売上げとか改善率、人数、個数など)を棒(四角形)の長さで示したグラフです。
この例は、ある商品の4月~6月の販売個数を、販売者(田中さん、鈴木さん、山田さん)別に示したものです。
この様に、棒グラフはある特性(販売個数)を複数の要素(月別と販売者別)間で比較する時に使われます。
横軸は、上の例の様に時系列データであったり、あるいは、名義尺度や順序尺度であったりします。
帯グラフ:Band chart
棒グラフの変形スタイルで、横向きの棒(Bar)を構成比で区切ります↓。棒グラフと同様に、ある特性(着付け教室に求める内容)を複数の要素(年齢層と求める内容)間で比較する時に使われます。ただし、棒(Bar)の長さは一定とし、全体で100%となります(これは円グラフと同じ)。
要素間の構成比を比較したいときには、円グラフではなく、帯グラフを使います。
折れ線グラフ:Line chart
データを点(記号)で表し、点同士を線でつないで数字の移り変わり(推移)を表すグラフです↓。
関係のある二つの数について、数の変化の傾向を見るグラフです。通常、横軸には経時変数がきます。
このグラフを使うときに気をつけることは、「線で繋ぐ点と点の間に関連性がある」ということです。
上のグラフの例で言えば、赤い線で結ばれた点は「商品B」の注文数を曜日の順番に結んでいますので、これらの点のデータは互いに関連のあるデータとなっています。
統計解析でよく出てくるグラフ
統計解析では、上記の3つのグラフもよく使うのですが、一般的にはあまり見かけない統計解析特有のグラフが幾つかあります。
ヒストグラム:Histogram
身長や体重等の連続変数(continuous variables)を10~20程度の小区間に区切って、各小区間に該当する頻度(例数とか件数、個数など)で示した棒グラフの様なグラフをヒストグラム↓と言います。
ある変数(上図ではMonthly Salary)の個々のデータのバラツキ具合を見るのに適していますが、表現出来る変数は1種類だけです。
また、変数は必ず連続変数(年齢や身長、体重、サラリー、臨床検査値など)で、名義尺度や順序尺度のような離散データには使えません。
ヒストグラムの縦軸は必ず頻度(Frequency)になり、棒グラフと違って、棒同士はくっついていて、隙間がありません。
この変数が名義尺度や順序尺度のような離散データであったり、いくつかの要因(性別とか国別、投与群別など)に分かれている場合は、次の箱ひげ図を使います。
箱ひげ図:Box-and-whisker plot
その名のとおり、箱から上下にヒゲが伸びている不思議な形のグラフ↓です。
箱ひげ図は四分位(quarter)という代表値を用いてデータのバラツキを表現します。四分位とはデータを小さい順に並べて、4等分したものです。小さい方から数えて、全体の25%に当たる値が第1四分位(1st quarter)、真ん中に当たる値が第2四分位(中央値: Median)、75%にあたる値が第3四分位(3rd quarter)となります。
図で言えば、真ん中の四角(緑色の部分)の下辺が第1四分位(1st quarter)、上辺が第3四分位(3rd quarter)、箱の中にある横線が第2四分位(中央値: Median)です。
さらに、箱の下辺から伸びているヒゲの先の横棒が最小値(Minimum)を示し、箱の上辺から伸びているヒゲの先の横棒が最大値(Maximum)を示します。
箱ひげ図の利点は、ヒストグラムと違って、あるデータ群を箱ヒゲで示しつつ、異なる要因を並べて比較できることです↓。
この箱ひげ図は、学校A~Cの英語と物理と数学の得点データを比較しています。こういう比較をしたいときに箱ヒゲ図は便利なのです。
ちなみに、箱内の×印は算術平均(arithmetic mean)、つまり、平均点を表しています。第2四分位(中央値: Median)と微妙にズレているのがお解りでしょうか。
さて、ここで、学校Aの英語の箱ヒゲをみますと、上側にあるはずのヒゲがありません。これはどういうことでしょうか?(ミスプリではありませんよ!)
このヒゲがない理由は、学校Aの英語の最高得点者数が全員の1/4以上居た・・・と言うことで、Maximumのヒゲの横棒が第3四分位の上辺と重なってしまったのです。
同様に、学校Cの英語の箱ヒゲには上にも下にもヒゲがありません。これは、学校Cの英語の最高得点者数が全員の1/4以上居た、と同時に、最低得点者数も全員の1/4以上居た・・・と言うことです。
ちなみに、学校Cの英語の箱ヒゲのずっと下に点がありますが、これは外れ値(outlier)と呼ばれるもので、何らかの理由(例えば、試験の途中で体調を崩して退席したとか)で、集計に含めなかった値です。
標準偏差付きグラフ
箱ひげ図と似ていますが、この図は、何らかの平均値に標準偏差(standard deviation)の範囲を付け加えたものです↓。
標準偏差(SDと略します)とは、データのばらつき具合の尺度で、この値が大きいほど、データがばらついていることを示します。ちなみに、平均±1×SDの範囲内に全てのデータの約2/3が含まれます。
標準偏差は、誤差(error)とも言われますので、この標準偏差のヒゲのことをerror barと呼ぶこともあります。
上の図は棒グラフに標準偏差のヒゲを付けたものですが、時系列データの折れ線グラフに標準偏差のヒゲを付けたもの↓もよく出てきます。
ドットプロット:Dot plot
見慣れてくれば、箱ヒゲ図や標準偏差付きグラフでもデータのバラツキ具合を予測することが出来ますが、もっと具体的にデータのバラツキ具合を示したのがドットプロット↓です。
このグラフで、青い○は1つ1つのデータを意味し、赤い横棒は算術平均(arithmetic mean)を示しています。
各グループのデータのバラツキ状態がひと目でわかりますよねぇ。
同じデータをドットプロットと箱ひげ図で示したのが、以下の図です。
ドットプロットの方がより明確にデータのバラツキ状態が把握出来るのが解りますでしょ。
散布図:Scatter diagram
ふたつの異なる連続変数の関連性を検討する場合によく使われるのが散布図↓です。
上図は、ある学校のクラス員の身長(横軸)と体重(縦軸)の散布図(男女別)です。
この様に散布図は、ふたつの変数間の関連性、即ち、相関(correlation)関係をみるときによく使われます。
ふたつの変数間の相関関係が強いほど、散布図は直線状に並んできます。逆に、相関関係が弱い場合は、満点の星空のように満遍なく広がってきます。その例が、以下の様になります。
以上、データを見える化するときに使われる、代表的なグラフをザクッと紹介しました。実際には、これらのグラフを組み合わせて表示していることも多いですが、基本を理解しておけば、グラフを読み取ることはそれほど難しいことではありません。
デハデハ