【平均値と期待値の違い】母集団と標本、そして確率変数(確率分布も少し)

平均値と期待値の違い 数学
平均値と期待値の違い。母集団と標本、そして確率変数。

“期待値”と”平均値”の違いを理解する上では、母集団と標本の関係を整理する必要があり、それのためには代表値と分布を考える必要があり、そして確率変数…ということで、面倒ではありますが背景から書いていきます。(分かっている方は所々を飛ばしても構いません)

前提

期待値の話を知りたいと思っている時点で、あなたは何がしかのデータを分析する立場にあると言えるでしょう。
ではそもそも、”分析“とは何だろうか?(以下、引用)

「分析とは比較、すなわち比べること」というものだ。分析と言われるものに共通するのは、フェアに対象同士を比べ、その違いを見ることだ。

イシューからはじめよ 知的生産の「シンプルな本質」, 安宅和人, p.150

なぜそう言えるのかについては引用元の本を読んでほしいのですが、「分析とは比較である」ということで、では、比較をするにはどうしたらいいのでしょうか?

例えば、とある学校のAクラスとBクラスで行った英語テストの点をそれら2クラスで比較したいとき、1クラス40人だとしたら、各クラス40人ずつ、計80人のテストの点を1つ1つ確認するだろうか?

答えはもちろんNoです。そんなかったるいことやってられないし、80人ならまだしも、1,000人とか10,000人になったらどうするつもりだろうか?

ということで、その比較を楽に行うために、我々は何がしかの手段を用いる必要性があります。そこで用いられるのが”代表値”と呼ばれる値です。

代表値の例を挙げると、平均値、中央値、最頻値などがあり、これら値を比較することによって、集団同士の比較が簡単になります。
(なぜなら、その値だけを見て比較すれば良くなったから。前の例で言えば、80人全員のテストの点を見なければ比較できなかったのが、各クラスの平均値、すなわちたった2つの値を比較するだけで良くなった)

代表値と分布

代表値とは、”分布を代表する値“です。

なお、ここで言う”分布“とは、”数値的な情報を持つ観測された値の集まりを可視化したもの”だと思ってもらえれば良いかなと。例えば先ほどの例において、クラスAとBの英語の点数の分布は以下のようになっています。

縦軸が人数で、横軸が点数です。

※上記は厳密に言えば”度数分布”と呼ばれるものです。

分布と母集団

分布を語る上でついてくる概念が、”母集団“と呼ばれるものです。以降、母集団の話に繋げるため、先ほどの例に少し条件を加え、その規模を大きくし、分析の目的を変更してみましょう。

まず、分析の目的を”日本人の50歳以下の人たちと51歳以上の人たちで英語のテストの点数に違いはあるだろうかを確かめる“、というものに設定します。(共通の英語テストを受けてもらって、50歳以下の人たちと51歳以上の人たちの平均点に差はあるか?とか

そして、先ほどのクラスA、Bにおいて、クラスAの人たちを、日本全国の50歳以下の人たちからランダムに選ばれた40人、クラスBの人たちを、同じく日本全国の51歳以上の人たちからランダムに選ばれた40人として分けて、この2クラスの英語のテストの点数を比較します。

おいおい、目的は、50歳以下の人たちと51歳以上の人たちの英語のテストの点を比較したいんだろ?なんでクラスAとクラスBで比較するの。本当に50歳以下の人たち全員と51歳以上の人たち全員に英語のテストを受けてもらわないと比較にならないでしょ。(そうしないと平均値も計算できないし)

ごもっともです。ですが上記に言い返すとすれば、

そんなことできるわけないでしょ。日本人は1億人いるんだよ?誰が採点して、点数を集計すると思ってるの?

となるでしょう。

要は、分析の目的を達成したいが、どうしてもそれが無理な場合が存在するということに対し、その妥協案として、ランダムに集めた50歳以下の人たち40人(クラスA)と、同じくランダムに集めた51歳以上の人たち40人(クラスB)の英語のテストの点数を比較しよう、という話になっています。

ここで、”クラスAの人たち及びクラスBの人たちの背後には、膨大な数の人たちが存在する”、というのは問題ないでしょうか?

例えばクラスAの人たちは、50歳以下の全ての人たちの中でランダムに選ばれた代表40人なわけであって、その背後には何百万、何千万もの人がいます。これはクラスBも同様です。

このとき、分析の対象となる背後に存在する膨大な数の人たちのことを、”母集団”と呼び、母集団からランダムに選んだ、手元に存在するデータの集まりであるクラスAの人たち及びクラスBの人たちのことを”標本(サンプル)“と呼びます。(以下画像)

※分かりやすいように50歳以下の人たちの母集団Aから集められた標本を標本A、51歳以上の人たちの母集団Bから集められた標本を標本Bとしています。以降、クラスAを標本A、クラスBを標本Bと呼びます

上記の言葉を使って今回の分析の状況を再説明すると、

50歳以下の人たちの英語のテストの点数と、51歳以上の人たちの英語のテストの点を比較したいけど、日本の中の50歳以下の人たち全員と、51歳以上の人たち全員にテストを受けさせるなんて無理!じゃあ代表して母集団から40人ずつ標本Aと標本Bとして取り出して、その人たちを比較した結果を母集団の結果としよう!

という感じです。(以下画像)

※注意:大まかな解説をしているため、以降を読まないと誤解が生じると思います。また、本当に母集団の比較結果を標本同士の比較結果で表していいのかどうか、という疑問も以降で解消します

標本サイズ(サンプルサイズ)/標本数(サンプル数)・確率変数

ここで一度、用語を整理します。(ごっちゃにすると後に混乱すると思われる概念2つと、後に繋がる用語)

標本サイズ(サンプルサイズ)

まず、”標本サイズ(サンプルサイズ)“です。
これは、標本の中に存在するデータの数で、\( n \) で表し、先ほどの例で言えば \( n = 40 \) です。(以下画像参照)
※再記:「標本 = 母集団からランダムに選んだ、手元に存在するデータの集まり

標本数(サンプル数)

次に、”標本数(サンプル数)“です。
これは、標本そのものの数です。(以下画像参照)
※標本サイズ(サンプルサイズ)のように \( n \) のような記号で表されることはありませんが、以下画像ですと、「標本数(サンプル数)= 2」です。

確率変数

少し特殊な考え方をします。
一応ですが、関数の考え方を用いるので、以下記事

【モデルと関数】モデルとは何か?関数とは何か?(わかりやすく)
モデルって何?関数って何の役に立つの?科学とは?実験とは?今一度根本から、分かりやすく解説します。一度は聞いたこと、学んだことがあるものに対する答えを今ここで。(コロナ感染者数予測"モデル"、写真の"モデル"さん、プラ"モデル"、etc...)

または以下記事の”関数を用いた’確率’の考え方”の部分をご参照いただければと思います。

【確率論】確率は関数として考えるべき。
確率を計算するときには、ただただ公式を使えば良いというわけではない。それだけでは直感に反する結果が生じることから、確率は関数として考えるべきである。関数についての考え方から、具体例を用いてわかりやすく説明する(確率論にも軽く触れる)

それではまず、”変数”とはなんでしょうか?

ここでは、読んで字の如し、変動する数、ということで“変数 = 色々な値に取って変わる数値や文字“と捉えてもらって構いません。また、プログラミングを学んだことがある方なら、”変数 = 値を入れるための箱“のようなイメージを持っているでしょう。
※一点注意。プログラミングの変数と、数学の変数は若干異なります。具体的に、箱という考え方まではいいのですが、プログラミングにおける変数は箱に値を入れずとも箱そのものを定義することはできますが、数学における変数はその箱に必ず値を入れる必要性があります

我々が”変数”という概念を考えるときの思考プロセスを図にしてみます。

上記、我々が考えていることを言葉にすると、
1, 3, あいう, Apple という数値や文字が、我々の脳内の記憶をつかさどる箇所に紐づいている感じ
これを図にして書くと、以下のようになります。

上図において、脳が知覚した①の部分だけを取り出すと…

どこかで見た覚えがある通り、これは関数の構造そのものです。
では、この箱の中ではどのような操作が施されて、最終的に出力が1になったのでしょうか?

これに関しては、”変数”だけでなく”確率変数”も図で説明すると分かりやすくなります。

以下、引用。

いろいろの値をとりうる変数Xがあって、それぞれの値をとる確率が決まっているときXを確率変数という。たとえば、さいころを投げたとき出る目の数をXと置けば、Xは1から6までの整数のどれかであり、どの値をとる確率も1/6であるからXは確率変数である。

コトバンク,  日本大百科全書(ニッポニカ)「確率変数」の解説

上記より、確率変数を先ほどの図で表すと、以下のようになります。

“1の目が出る”という部分だけ取り出すと…

つまり、”確率変数“は事象という入力に対して、0 ~ 1 の何らかの、任意の確率によって生じる変数を付与する箱を通して、出力(数値)との紐付けを行なっているものと言えるため、”確率変数 = 関数“です。(以下図)

※出力そのものは確率でないことに注意。例えば上図で言えば、任意の確率 \( \frac{1}{6} \) によって、”1の目が出る”という事象に1が紐づいています

これに対し、”変数“は脳の記憶容量という入力に対して、”確率1″を付与して出力(数値とか文字)との紐付けを行なっているものだと言えます。(以下図)

※出力に確率が影響しているものが”確率変数”、影響していない(確定で値が紐づけられる)ものが”変数”。変数の値を確実に定義できる、特定の値を持つと規定できるのが”変数”、そうでないのが”確率変数”。

母集団と標本における確率変数

話を戻して、実は、母集団と標本の話をしていたときに、既に我々は”確率変数”に触れていた、ということを明かしておきます。

前の例に使用した図を持ってくると…

上図において、英語のテストを受ける人は、母集団からランダムに40人集められて、標本A、標本Bを形成しています。つまり毎回、標本Aに入る人たちと標本Bに入る人たちが変わります。
したがって、各標本の中で確認される個々の英語の点数も毎回変わることから、それら数値は”母集団内の各事象から”任意の確率によって生じる変数を付与されたものと言えるはずです。

※上記にも記載しているが、標本内の40, 92, 76, …, 81 などの、今回で言えば英語の点数は確率変数ではない。確率変数は、あくまでも入力と出力の関係を紐づけている関数です

ゆえに、英語の点数(上図の右側、標本内の数値)を使用して算出される”平均値“も、任意の確率によって生じる変数が付与されたもの、と言えます。

※もう少し噛み砕くと、標本として集められる人たちは毎回変わるため、集まった英語の点数も毎回変わるはず。よって、それら英語の点数の平均値も毎回変わるはず

そして、標本内の数値から計算される平均のことを、標本平均と呼びます。
※前述より、標本平均も確率変数です。(入力値となる \( X \) が、任意の確率によって生じる変数が付与されたもので、それを使用しているので。なお、標本平均によって出力された値は標本平均値です。混同しないよう注意。)

標本平均の算出方法は以下となっています。(標本内の個々人をそれぞれ \( x_1, x_2, x_3, …, x_n \) としています)

標本平均:\( \overline{X} = \frac{x_1 + x_2 + x_3 + … + x_n}{n} \)

上記図と式から、我々が普段”平均値”と呼んでいるものは、”標本平均値”です。(平均値 = 標本平均値

期待値

ここまでの話から、ようやく”期待値”に入ります。

手っ取り早く言ってしまうと、
期待値とは特定の関数の出力部分となるそれぞれの値に、その出力が起こる確率を掛け合わせて合計をとった値」です。

具体的に、確率変数の期待値の算出方法は以下となっています。(今までの話から、”確率変数 = 関数”という話があったので、スッといくはず)

※上記、期待値とは「〜」です。の赤文字青文字部分と、数式中の赤文字青文字部分が対応しています。

注意として、上記はあくまでも \( E[X] \) なので、確率変数を入力にした期待値(確率変数の期待値)となります。そして算出する際には、確率変数の出力部分と、その出力が生成されるにあたる確率が必要になります。(以下図参照。数式中の赤文字青文字が図の赤文字青文字に対応)

分かりやすいようにサイコロを1回投げた際の出る目の期待値を算出してみます。(逆に誤解を生む場合があるので、他の例も用意します)

サイコロを1回投げた際に出力される値は1, 2, 3, 4, 5, 6 で、それら出力が生成されるにあたる確率はそれぞれ \( \frac{1}{6} \) です。したがって、以下のような確率変数の表、構造が存在しています。

このことから、確率変数の期待値を算出すると、

\begin{align}
E[X] &= 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + 3 \times \frac{1}{6} + 4 \times \frac{1}{6} + 5 \times \frac{1}{6} + 6 \times \frac{1}{6} \\
&= \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) \\
&= 3.5 \end{align}

となります。

しかし、これだけだと「ただの平均と何が違うの?」という話になりかねないので(筆者もそうでした)、もう1つ例を紹介します。

今、宝くじを1枚買った時の期待値を算出したいと考えます。
設定として、宝くじを1枚買った際に出力される値は100万円、10万円、1万円、100円で、それら出力が生成されるにあたる確率は、\( \frac{1}{5000} \)、\( \frac{1}{1000} \)、\( \frac{1}{100} \)、\( \frac{1}{5} \) です。以下のような確率変数の表、構造が存在しています。

このことから、確率変数の期待値を算出すると、

\begin{align}
E[X] &= 1,000,000 \times \frac{1}{5000} + 100,000 \times \frac{1}{1000} + 10,000 \times \frac{1}{100} + 100 \times \frac{1}{5} \\
&= 420 \end{align}

となります。(宝くじ1枚が420円以下なら、買えば買うほど損する…)

この計算式を見るに、要は確率によって影響を受ける変数の値(以下、赤枠部分)には、その値自身に影響を与える確率(以下、青枠部分)を掛け合わせてあげよう、という発想が”期待値”です。

この時点で、標本平均値と期待値の違いは明白です。

ですが、このままだとあまり面白いとは言えないかつ、当初の目的であった母集団の比較を標本の比較で済ませてしまおう、という話がどこかに行ってしまいます。

ですので今までは確率変数の期待値を算出していましたが、ここからは標本平均の期待値を算出してみます。

標本平均の期待値

標本平均も確率変数であることを思い出していただければ、式としては以下のようになることに納得がいくかなと思います。(単に確率変数の部分を標本平均にしただけ)

ただ、図としては以下であることに注意が必要です。(上記、数式と以下図の赤文字青文字部分が対応)

例を挙げます。表裏が同じ確率であるコインがあったとして、そのコインを3回投げた結果を1つの標本として形成し、それら標本平均の期待値を算出します。(表、図としては以下)
※標本平均を取りうる確率は、標本が8個あり、その中の1つとして標本平均があるので

このことから、標本平均の期待値を算出すると、

\begin{split}
E[\overline{X}] &= \frac{3}{3} \times \frac{1}{8} + \frac{2}{3} \times \frac{1}{8} + \frac{2}{3} \times \frac{1}{8} + \frac{2}{3} \times \frac{1}{8} \\
&+ \frac{1}{3} \times \frac{1}{8} + \frac{1}{3} \times \frac{1}{8} + \frac{1}{3} \times \frac{1}{8} + \frac{0}{3} \times \frac{1}{8} \\
&= \frac{1}{2}
\end{split}

となります。

ここで1点気づいていただきたいのが、標本平均の期待値の値が母平均となっていることは、果たして偶然でしょうか?(上記の例で言えば \( \frac{1}{2} \))

実はこれは偶然ではありません。すなわち、
標本平均の期待値 = 母平均
となります。(母平均:母集団の平均値

これは、\( E[\overline{X}] \) をそのまま式変形すれば導かれます。(以下)
※サンプルサイズを \( n \) 、母平均を \( \mu \) としています

\begin{split}
E[\overline{X}] &= E[\frac{1}{n}(X_1 + X_2 + … + X_n)] \\
&= \frac{1}{n}E[X_1 + X_2 + … + X_n] \\
&= \frac{1}{n}(E[X_1] + E[X_2] + … + E[X_n]) \\
&= \frac{1}{n}(\mu + \mu + … + \mu) \\
&= \frac{1}{n}(n \mu) \\
&= \mu
\end{split}

上記式で注意が必要なのが、「標本は母集団と同じ確率分布にしたがう確率変数である」という仮定を置いている点です。
これによって、\( E[X_1] = \mu, E[X_2] = \mu, …, E[X_n] = \mu \) が成り立ちます。
したがって、「標本平均の期待値 = 母平均」となります。

※補足:確率分布とは?

確率分布とは、確率変数の出力が実際にどのような確率を取ってその値になっているのかを与えるものです。(以下図と表を参照。表は既に登場しているはず)

つまり、確率分布とは、ある事象が起こる際における結果を入力に、それに発生確率を紐づける関数です。

母集団の比較 ≒ 標本の比較

前章より、「標本平均の期待値 = 母平均」となることを紹介しました。
このことから、当初の目的であった、母集団の比較の結果を標本の比較の結果で表すことができるようになりました。(以下図において、標本Aの標本平均の期待値から、母集団Aの平均値が分かり、標本Bの標本平均の期待値から、母集団Bの平均値が分かる。したがって、母集団同士の平均値の比較が可能になった
赤矢印部分を一緒と見做せるようになった

ですが章のタイトルにもあるように、あくまでも「母集団の比較 ≒ 標本の比較」であって、完全に「母集団の比較 = 標本の比較」となることはありません。

これは、母集団から集めてくる標本に偏りがある可能性があるからです。
例えば、本当は50歳以下の人たちの方が51歳以上の人たちよりも英語のテストの平均点が高いにも関わらず、”たまたま”50歳以下の人たちの中で英語のテスト点が低い人たちばかりを集めてきてしまった場合、その逆の結果となります。

ですが、このようなことは標本のサンプルサイズを増やせばほぼ無くなります。(直感的にも分かるはず)
上記の証明もできるはできるのですが…期待値の話からは逸れると思うので今回は記載しません。

以上、まとめとして、

  • 平均値:標本内の数値から計算される平均値。すなわち、平均値 = 標本平均値
  • 期待値特定の関数の出力部分となるそれぞれの値に、その出力が起こる確率を掛け合わせて合計をとった値

※追記:大数の弱法則

大数の弱法則が何かを一言でいうと、
母集団から取ってきた標本の数(サンプルサイズ)を ∞ に近づけると, その標本の平均値が母集団の平均値に限りなく近づく
というものです。(数式としては以下)

$$ \lim_{n \to \infty} P(|\bar{X_n} \ – \ \mu| > \epsilon) = 0 \ \ (\forall_\epsilon > 0) $$

  • \( \bar{X_n} \):標本平均
  • \( \mu \):母平均
  • \( \epsilon \):超小さい数(0.0000000001とかを想像してもらえれば)
  • \( \forall \):全ての

日本語で言えば、
「超小さな数 \( \epsilon \) に対し、標本平均 \( \bar{X_n} \) と母平均 \( \mu \) の差の絶対値は、その \( \epsilon \) よりも大きくなる。しかし、その確率はサンプルサイズ \( n \) を \( \infty \) に近づけていくと、0に収束する」

要は、
標本の数 \( n \) を大きくしていけばいくほど、標本平均と母平均の差が \( \epsilon \) より大きくなってしまう確率は、0に近づいていくよー」

もっと言えば、

サンプルサイズ \( n \) を増やせば増やすほど、標本平均と母平均の差がなくなる、つまり”標本平均 \( \fallingdotseq \) 母平均”と考えて良い
ということです。(サンプルサイズが多かったら、標本平均を母平均とみなしてok!ということを言っている法則が”大数の弱法則”)

★期待値と何が違うのかに関しては、期待値は”サンプル数”に着眼して、大数の弱法則は”サンプルサイズ”に着眼している点です。

タイトルとURLをコピーしました