lecture1
この授業の前半でやること
以下の内容を数学的に正確に記述できるようになることを目指す。
- 確率変数
- 条件付き期待値
- 各種収束概念
- 概収束
- p次平均収束
- 確率収束
- 分布収束
- 大数の強法則
- 中心極限定理(ここはお気持ち程度)
なぜ気軽な気持ちで計量経済学を知りたいだけなのにこれらを学ぶハメになってしまうのか。
それは計量経済学という分野が
- 条件付き期待値または尤度のモデリング
- 無限にサンプルがあった時にそのモデルをどの程度の誤差で復元できるか
という二つのことしか考えていないからである。
このうちで、尤度の理解は容易である。尤度とは、「そのサンプルの起こりやすさ」である。
しかし、条件付き期待値というオブジェクトは数学的にはるかに入り組んでいる。その理解のためにはそもそも期待値が積分であることを理解した方がよくて、期待値が積分であるということを理解するためには確率変数が確率空間上の関数であることを理解した方が良い。なのでこの辺のごちゃっとした話を避けて通れない。
そして、二点目の無限にサンプルがあった時の話というのはさらに入り組んでくる。おそらく皆さんどこかで大数の法則とか中心極限定理とかの話を聞いことはあると思う。
大数の法則はコインを無限に投げ続けた時に、表が出た割合が\(\frac{1}{2}\)に「近づく」ことを指すわけだが、「近づく」の意味を正確に理解しないと、いけない時が来てしまったということである。
中心極限定理もそうである。これは\(\frac{1}{2}\)とサンプル平均との差が正規分布に「近づいていく」ということを主張するわけだが、ここでも「近づく」の意味を理解しないといけない時が来てしまった。
正確に理解すると何がいいのか。それは誰にもわからない。ただ、この辺の話はなんかすごいかっこいいので、やってみると面白くなること請け合いである。また、将来的にデータサイエンスやらなんやらをやろうとなった時に、この辺の話をなぁなぁにしていると、同僚に死ぬほど舐められてしまう。ちゃんと勉強して逆に同僚を舐めていこう。
モチベーション
なぜ有限加法性では足りないのか
高校までの確率では,標本空間 \(\Omega\) の各元 \(\omega\) に重み \(p(\omega)\) を割り当てて,事象 \(A \subset \Omega\) の確率を
\[ P(A)=\sum_{\omega\in A} p(\omega) \]
で定める,という見方が自然である。これは \(\Omega\) が有限集合であるときには完全にうまく働く。実際,サイコロやカードのように,起こりうる結果が有限個しかない試行では,確率を「各結果の確率を足し上げたもの」と考えて差し支えない。
具体例:サイコロ
すでに意味がわからないと思うので、具体例を出す。
たとえば,6面体の公平なサイコロを1回投げる試行を考えよう。このとき標本空間は
\[ \Omega=\{1,2,3,4,5,6\} \]
である。各元 \(\omega\in\Omega\) は「出た目」を表している。公平なサイコロであれば,各結果は同じ確率で起こるので,
\[ p(1)=p(2)=\cdots=p(6)=\frac16 \]
と定めるのが自然である。
たとえば,「偶数の目が出る」という事象を
\[ A=\{2,4,6\} \]
と書けば,その確率は各結果の確率を足し合わせて
\[ P(A)=p(2)+p(4)+p(6)=\frac16+\frac16+\frac16=\frac12 \]
となる。同様に,「\(3\) 以下の目が出る」という事象
\[ B=\{1,2,3\} \]
の確率は
\[ P(B)=p(1)+p(2)+p(3)=\frac12 \]
である。
このように,標本空間が有限集合であるときには,各元 \(\omega\) に確率 \(p(\omega)\) を割り当てておき,任意の事象の確率をその和として定める,という考え方が素直に機能する。
この見方は無限回の試行を扱おうとすると限界に突き当たる。これから扱いたい大数の法則や中心極限定理は,本質的に \(n\to\infty\) の極限を述べる定理である。したがって,最初から無限列を標本空間とする枠組みが必要になる。
無限回のコイン投げ
公平なコインを無限回投げる実験を考える。標本空間は
\[ \Omega=\{H,T\}^{\mathbb N} \]
であり,\(\omega=(\omega_1,\omega_2,\omega_3,\dots)\) は「第1回,第2回,第3回,\(\dots\) の表裏の並び」を表す。
有限回までの情報だけを見る基本的な事象として,
\[ C(x_1,\dots,x_n) = \{\omega\in\Omega:\omega_1=x_1,\dots,\omega_n=x_n\}, \qquad x_i\in{H,T} \]
を考える。これは最初の \(n\) 回の結果が指定された事象であり,公平なコインなら
\[ P(C(x_1,\dots,x_n))=2^{-n} \]
であるべきだと考えられる。
ところが,ひとつの無限列 \(\omega\in\Omega\) だけが起こる事象 \({\omega}\) の確率はどうなるだろうか。\(\omega\) の最初の \(n\) 個だけを固定した事象を
\[ C_n(\omega) = \{\eta\in\Omega:\eta_1=\omega_1,\dots,\eta_n=\omega_n\} \]
と書けば,
\[ {\omega}\subset C_n(\omega), \qquad P(C_n(\omega))=2^{-n} \]
である。したがって
\[ 0\le P({\omega})\le 2^{-n} \qquad (n=1,2,\dots) \]
となり,\(n\to\infty\) とすると
\[ P({\omega})=0 \]
でなければならない。
ここで,たとえば
\[ A=\{\omega\in\Omega:\omega_1=H\} \]
という事象を考える。これは「第1回が表である」という事象なので,当然
\[ P(A)=\frac12 \]
であってほしい。ところが \(A\) は無数の点の集まりであり,各点の確率はすべて \(0\) である。したがって,\(A\) の確率を「点ごとの確率を足し上げる」ことで作ることはできない。
このことは,無限回の試行では,確率を各点に割り当ててから事象の確率を復元する,という高校までの見方がもはや本質的ではないことを示している。必要なのは,各元ではなく,各事象そのものに直接確率を与える枠組みである。
どの事象に確率を与えるべきか
では,\(\Omega\) のすべての部分集合に確率を与えればよいのだろうか。少なくとも,我々が確率を語りたい事象の集まりは,普通の論理操作に対して閉じていなければならない。
まず,事象 \(A\) の確率が定義されているなら,その否定である \(A^c\) の確率も定義されていなければ困る。また,\(A\) または \(B\) が起こるという事象 \(A\cup B\) の確率も定義されていなければならない。さらに,極限を扱うためには,有限回ではなく可算回の和や共通部分に対しても閉じている必要がある。
このため,確率を定義する対象として,\(\Omega\) の部分集合族 \(\mathcal F\) を考え,次を仮定する。
- \(\Omega\in\mathcal F\) である。
- \(A\in\mathcal F\) ならば \(A^c\in\mathcal F\) である。
- \(A_1,A_2,\dots\in\mathcal F\) ならば \[ \bigcup_{n=1}^\infty A_n\in\mathcal F \] である。
このような \(\mathcal F\) を \(\sigma\)-代数という。補集合に閉じているので,可算共通部分にも自動的に閉じている。実際,
\[ \bigcap_{n=1}^\infty A_n = \left(\bigcup_{n=1}^\infty A_n^c\right)^c \]
であるから,\(\mathcal F\) は可算個の共通部分にも閉じている。
無限回のコイン投げでは,まず有限個の時点だけを指定した円筒事象
\[ C(x_1,\dots,x_n) \]
のような基本事象に確率を与え,そこから可算回の和・共通部分・補集合によって作られる事象全体を考えるのが自然である。すなわち,基本事象から生成される \(\sigma\)-代数の上で確率を考えるのである。
無限回のコイン投げが記述できない問題は解決する?
ここまでで,「無限回のコイン投げを扱うには,各点 \(\omega\in\Omega\) に重みをつけるのではなく,事象の集まり \(\mathcal F\) の上で確率を定義する必要がある」ということを見た。 では,実際にそのような確率をちゃんと作ってみる。
まず,標本空間をもう一度書くと,
\[ \Omega=\{H,T\}^{\mathbb N} \]
である。 各 \(\omega=(\omega_1,\omega_2,\omega_3,\dots)\) は,無限回のコイン投げの結果の列を表している。
この上で,最も基本的な事象は,最初の有限回の結果だけを指定する円筒事象である。すなわち,
\[ C(x_1,\dots,x_n) = \{\omega\in\Omega:\omega_1=x_1,\dots,\omega_n=x_n\}, \qquad x_i\in\{H,T\} \]
である。
これは「最初の \(n\) 回だけ見たときに,結果が \((x_1,\dots,x_n)\) である」という事象である。 公平なコインなら,これらの事象には当然
\[ P(C(x_1,\dots,x_n))=2^{-n} \]
を割り当てたい。
たとえば,
\[ P(\omega_1=H)=\frac12, \qquad P(\omega_1=H,\omega_2=T)=\frac14, \qquad P(\omega_1=H,\omega_2=T,\omega_3=H)=\frac18 \]
であってほしい,ということである。
ここで重要なのは,この割り当てが矛盾していないことである。
たとえば,
\[ \{\omega:\omega_1=H\} = \{\omega:\omega_1=H,\omega_2=H\} ;\cup;\{\omega:\omega_1=H,\omega_2=T\} \]
であり,右辺の二つは互いに交わらない。したがって,もし確率が加法的であるなら,
\[ P(\omega_1=H) = P(\omega_1=H,\omega_2=H)+P(\omega_1=H,\omega_2=T) = \frac14+\frac14 = \frac12 \]
となってほしい。これは自然である。
同様に,
\[ C(x_1,\dots,x_n) = C(x_1,\dots,x_n,H)\cup C(x_1,\dots,x_n,T) \]
であり,右辺は互いに素だから,
\[ 2^{-n} = 2^{-(n+1)}+2^{-(n+1)} \]
となる。これも矛盾していない。
つまり,円筒事象に対して
\[ P(C(x_1,\dots,x_n))=2^{-n} \]
と定めることは,少なくとも有限回までの情報については整合的である。
では,この割り当てを円筒事象だけでなく,それらから生成される \(\sigma\)-代数全体、つまり無限回のコイン投げで起こること全てへ拡張できるだろうか。
答えはYESである。
厳密には,円筒事象全体から生成される \(\sigma\)-代数を
\[ \mathcal F=\sigma\bigl(\{C(x_1,\dots,x_n):n\ge1,\ x_i\in\{H,T\}\}\bigr) \]
と書くと,この \(\mathcal F\) の上に確率測度 \(P\) を定義して,
\[ P(C(x_1,\dots,x_n))=2^{-n} \qquad \text{for all } n,(x_1,\dots,x_n) \]
を満たすようにすることができる。
この事実は,拡張定理によって正当化される。 授業のこの段階では定理の証明までは追わなくてよいが,少なくとも
- 有限個の座標だけを指定した基本事象に自然な確率を与える
- その割り当てが整合的である
- するとその情報から,必要な事象全体へ確率を拡張できる
という流れを理解しておけば十分である。このようにして「無限の試行」への確率を構成する。
大数の強法則をチラ見
大数の強法則を述べるには,まさに可算回の操作が必要になる。無限回のコイン投げに対して,
\[ X_n(\omega)= \begin{cases} 1 & (\omega_n=H),\ 0 & (\omega_n=T) \end{cases} \]
とおくと,
\[ \frac1n\sum_{k=1}^n X_k(\omega) \]
は最初の \(n\) 回における表の相対度数である。大数の強法則は,公平なコインなら
\[ \left\{\omega\in\Omega:\lim_{n\to\infty}\frac1n\sum_{k=1}^n X_k(\omega)=\frac12\right\} \]
という事象の確率が \(1\) である,と主張する。
しかし,「極限が \(\frac12\) である」という事象は,有限回の和や共通部分だけでは書けない。極限の定義をそのまま書き下すと,
\[ \left\{\omega:\lim_{n\to\infty}\frac1n\sum_{k=1}^n X_k(\omega)=\frac12\right\} = \bigcap_{m=1}^\infty \bigcup_{N=1}^\infty \bigcap_{n=N}^\infty \left\{ \omega: \left| \frac1n\sum_{k=1}^n X_k(\omega)-\frac12 \right| < \frac1m \right\}. \]
右辺には可算個の共通部分と可算個の和が現れている。したがって,この事象の確率をそもそも定義したいなら,確率が定義される事象の族は可算回の操作で閉じていなければならない。有限加法性だけでは,大数の強法則が主張している事象そのものを記述することができないのである。
確率は \(\sigma\)-加法的でなければならない
したがって,確率とは
\[ P:\mathcal F\to[0,1] \]
という写像であって,少なくとも
\[ P(\Omega)=1 \]
を満たし,さらに互いに素な事象 \(A_1,A_2,\dots\in\mathcal F\) に対して
\[ P\left(\bigsqcup_{n=1}^\infty A_n\right) = \sum_{n=1}^\infty P(A_n) \]
が成り立つことを要請するのが自然である。これが \(\sigma\)-加法性である。
\(\sigma\)-加法性を仮定すると,確率と極限の相性がよくなる。たとえば,増大列 \(A_1\subset A_2\subset\cdots\) に対して
\[ P\left(\bigcup_{n=1}^\infty A_n\right) = \lim_{n\to\infty}P(A_n) \]
が成り立つ。この種の性質は,大数の法則や中心極限定理を扱うときに繰り返し使われる。逆に言えば,有限加法性だけでは,極限操作を含む確率論の基本定理を安定に展開することができない。
まとめ
有限個の結果しかない試行では,確率を各結果に割り当てて足し上げるという見方で十分である。しかし,無限回のコイン投げのような無限試行では,各点の確率はすべて \(0\) になりうるので,事象の確率を点の確率から復元することはできない。したがって,確率は最初から事象の族 \(\mathcal F\) の上に定義しなければならない。
さらに,大数の強法則のような極限定理を記述するには,「極限が存在する」という事象が \(\mathcal F\) に入っていなければならない。そのためには \(\mathcal F\) は可算回の和・共通部分に対して閉じている必要があり,すなわち \(\sigma\)-代数でなければならない。そして,その上に定義される確率 \(P\) もまた \(\sigma\)-加法的でなければならない。
こうして,測度論的確率論では,確率空間
\[ (\Omega,\mathcal F,P) \]
を出発点として理論を組み立てる。この枠組みの上で,確率変数は可測関数として,期待値は積分として,条件付き期待値は部分 \(\sigma\)-代数に関する射影として理解されることになる。