皆さんこんにちはPartner of Medical Translatorsの津村です。

今日は、データ解析における基本中の基本の「平均」と「標準偏差」についてお話ししたいと思います。

平均(Mean)とは、いわゆる算術平均(arithmetic mean)のことで、これは皆さんおなじみだと思います。

データ解析でまず初めにつまずくのが 標準偏差(Standard deviation)です。実はこれも、平均の一種なのですが、この辺の理解を深めていきましょう。

 データの要約

例えば、日本人50人にある検査をして、以下の様なデータが得られたとしましょう。

11.69 7.28 9.33 9.81 10.29 11.65 10.69 9.49 12.57 10.28

8.07 13.19 12.55 10.93 9.49 9.31 11.17 7.11 8.60 8.55

7.26 8.81 8.61 9.87 12.86 11.39 8.72 9.14 8.93 9.35

12.43 9.30 11.19 9.34 7.67 5.96 7.22 12.72 8.82 9.24

8.94 7.91 12.78 10.97 13.57 11.43 11.18 11.05 13.22 8.30

このデータをじっと眺めているだけでは、なかなか情報を得ることができません。

そこで、

  • この一群のデータを簡潔に表現、即ち、要約することは出来ないだろうか?
  • この一群のデータに何らかの傾向や法則が潜んでいるのであろうか?

ということを検討してみたくなります。

私たちがデータを眺めるとき、自然と「その奥底に潜む普遍的な原理」を求めたくなるものです。というか、この「普遍的な原理」を知るためにデータを取っているのですが・・・。

バラバラのデータを要約し、その中に含まれている情報を把握しやすくする手段が・・・データ解析(Data analysis)です。

さらに、バラバラのデータから普遍的な性質(即ち、大元の集団の性質)を推測する方法を、数理統計学(mathematical statistics)と言います。

 データの種類とその分類

データとしては数値だけでなく、画像や言葉も含まれますが、コンピュータで効率的に処理仕様とすると、画像や言葉のデータも何らかの数値に変換する方が便利です。

データ解析で扱う数値データは大きく「測ったデータ」と「数えたデータ」に分類されます。

 量的データ:測ったデータ

測ったデータとは、長さ、重さ、速さ、硬さ、濃度、角度など、何らかの測定器や計測器を使って得た数値データのことで、 量的データ(quantitative data) といいます。精密な機器を使えば、小数点以下何桁でも測定できますので、別名、連続量データ(continuous data)とも呼ばれます。

量的データはさらに 比尺度 と 間隔尺度 に別れます。

比尺度(ratio scale): Aさんの給料は200万円で、Bさんはその倍の400万円・・・と言うように何倍とか何分の一という表現ができるデータのことで、四則演算(加減乗除)が可能です。

比尺度では0(ゼロ)が「無い」ことを意味します。例えば長さが0mとは「長さが無い」ことを意味しますし、速度が0km/hrと言うことは「速度が無い」ことを意味します。

体重も比尺度

 

間隔尺度(interval scale): 「会議は2時間で終わらせましょう」と言う場合、午前10時から始めれば12時まで、午後1時から始めれば3時まで・・・と足し算、引き算だけが意味を持つデータのことです。

間隔尺度では0(ゼロ)が「単なる記号」を意味します。例えば、午前0時は時間が無い訳ではなく、時計の針が0時(12時)を指していると言うことです。同様に気温が摂氏0℃とは気温が無い訳ではなく、温度計が0℃を指していると言うことです。

 質的データ:数えたデータ

数えたデータとは、人数、不良品数、在庫数、副作用件数、などのように1つ、2つ、3つ・・・と指折り数え上げた数値データのことで 質的データ(qualitative data) といいます。数えるのですから、通常は整数の値となり、小数点以下がありませんので、 離散量データ(discrete data) とも呼ばれます。

質的データはさらに、名義尺度と順序尺度に別れます。

名義尺度(nominal scale): 国名とかチーム名などの名称で分類されるデータで、名称の並び順に意味はありません。東京6大学(野球)と言えば・・・「慶応、明治、早稲田、東大、法政、立教」いやいや「東大、立教、明治、・・・」並び順はどうでもいいの!

順序尺度(ordinal scale): 疾患の程度(軽症、中等症、重症)や業績評価(1、2、2+、3、4-、4、5)などの様に並び順に意味があるデータのこと。著明改善、改善、やや改善、不変、悪化などの改善度などが代表的な例です。

なお、質的データでは、加減乗除は一切出来ません。

今日お話しする平均と標準偏差は「量的データ」に関する要約パラメータです。

 平均値(Mean)

量的データの集団を要約する代表値のひとつとして平均値があります。平均値は対象のデータ集団の位置や大きさを示す代表値として使われます。

データ解析上の平均値(Mean)は通常、算術平均(データの合計をデータの数で割る)を意味します。

冒頭の日本人50人の検査データを再掲します。

11.69 7.28 9.33 9.81 10.29 11.65 10.69 9.49 12.57 10.28

8.07 13.19 12.55 10.93 9.49 9.31 11.17 7.11 8.60 8.55

7.26 8.81 8.61 9.87 12.86 11.39 8.72 9.14 8.93 9.35

12.43 9.30 11.19 9.34 7.67 5.96 7.22 12.72 8.82 9.24

8.94 7.91 12.78 10.97 13.57 11.43 11.18 11.05 13.22 8.30

このデータの合計は500.23ですので、それをデータ数50で割ると、平均値は10.0046となります。

この平均値の意味は、50個の検査値データの大体の大きさ(位置)が 10.0046 と言うことになります。この平均値を使ってデータ集団を「平均が10.0046の50個のデータ」と要約することができます。

データ解析や統計解析では、個々のデータのモデルを以下の様に考えています。

データ=「真の値」+誤差・・・(1)

ここで、真の値とは、我々下世話の人間には計り知れない、神様が決めたひとつの値です(これを母数[a parameter]と言います)。

そして、誤差(error)とは、真の値にデタラメにくっついている数値のことです。誤差には例えば、測定器の調子が悪く、データが低めに測定されたとか、ある被験者が測定に前日に飲み過ぎて検査値が異常に高かったとか、測定者が記録を付けるときに数値を読み間違えたとか、様々な偶然に起こった出来事の影響が含まれます。

平均値が「足し算する」というのは、でたらめにプラスとマイナスにくっついている誤差が互いにうち消し合うようにしているのです。

その足し算の合計をデータ数で「割る」ことで、神様の決めた真の値(母数)に近い値が得られる・・・と言うことです。

平均値の性質は次の様になります。

  1. 個々のデータから平均値を引いた残り、即ち、誤差を合計すると、必ず0(ゼロ)になる。
  2. (飛び離れて大きいデータや小さいデータが無ければ)平均より大きいデータの個数と小さいデータの個数はほぼ同じになる。
  3. データの数が多いほど、計算で求めた平均値は真の値に近づく(平均値は真の値の「推定値」)。

3番の性質について、私達は「10個のデータの平均値よりも、50個、100個のデータの平均値の方が信用できる」ことを経験的に知っています。

豆知識:平均の英語としてmeanとaverageがよく使われますが、データ解析での算術平均の意味ではmeanを使います。averageは広い意味の平均の総称で、算術平均に加えて、打率とか合格率、中央値や最頻値、などを意味しますので、データ解析に関係する文章中では使わないようにしましょう。

 標準偏差(Standard deviation)

平均値によってデータ集団の大体の大きさや位置が特定出来ました。しかし、平均値だけでは、データ群がどのくらいバラついているのかが解りません。

データ群がどのくらいバラついているかの代表値が標準偏差です。

データがバラつく原因は誤差にあり、誤差が大きいほどデータのバラツキが大きくなります。と言うことは、個々のデータから誤差だけを集めてきて、その平均値を計算すれば、バラツキの大体の大きさが示されるはずです。

では、個々のデータから誤差を計算しましょう。上述の式(1)を少し変えると・・・

誤差=データ-真の値・・・(2)

しかし、ここで「真の値」は神様しか知りませんので、我々は計算から求めた平均値を使うことにしましょう。

誤差=データ-平均値・・・(3)

ところが、式(3)で求めた誤差を単純に足しただけでは、平均値の特徴の1番にあるように、合計がいつも0(ゼロ)になってしまいます。

そこで、求めた誤差を全て二乗すると、マイナスだった誤差がプラスの値になり、0以外の合計が求められます。統計学ではこの様に二乗して足した値を「二乗和(sum of squares)」と呼びます。

上記の50人の検査データに関する誤差の二乗和は173.02となりました。これを、データの数50で割れば・・・としたいところですが、バラツキを求めるときにはひとつひいて 49=50-1 で割ります。

豆知識: バラツキを求める時には誤差の二乗和を(データ数ー1)で割りますが、その理由は数学的に証明されていますが、理解するのは結構大変なので、引いた1は「天使の取り分」と思ってください。

そうすると、173.02÷(50-1)=3.4604となりますが、これは誤差を二乗して求めていますので、元に戻すためにルートで開きます:√3.4604=1.8791 。これが標準偏差と呼ばれるものです。

この様に、標準偏差は誤差(平均値からの距離)の平均値であることがお解りでしょう。

標準偏差の特徴は;

  1. 値が大きいほどデータのバラツキが大きいことを示す
  2. 平均±1×標準偏差の範囲内に全データの約2/3が含まれる

となります。

 

今日は、データ解析の基本中の基本の「平均」と「標準偏差」についてお話ししました。平均値はデータ全体の算術平均で、標準偏差は誤差(バラツキ)全体の平均・・・と言うことをご理解いただけましたでしょうか。

デハデハ