lecture4

確率論の基礎概念その３：独立性と条件付き期待値

今回は独立性と条件付き期待値についてである。

特に条件付き期待値なんて簡単なオブジェクトだと思われているのではないだろうか。

それは以下の素朴な定義で十分な状況しか見たことがないからである。

素朴な定義

確率空間 \((\Omega, \mathcal F, P)\)に対して、事象 \(A,B\in \mathcal F\) を取ってきて、 - 事象Bに条件つけた事象Aの条件付き確率を \(P(A\mid B)\)とかく。この値を \[ P(A\mid B) = \frac{P(A\bigcap B)}{B} \]

と定義する

事象Bに条件つけた確率変数Xの条件付き期待値を \(E[X\mid B]\) とかく。この値を

\[ E[X\mid B] = \sum_{x} x P(X = x\mid B) \]

と定義する。ここで \(P(X = x\mid B)\) は上で定義した条件付き確率で、事象Bが起きてることに条件つけた時のXが値xをとる確率である。

今回はまず、この素朴な定義ではなぜ困るのかについて話す。

モチベーション

素朴な定義だけを見ると，条件付き期待値とは

「ある事象が起きたと仮定したときの平均」
「部分集団に限定した平均」

くらいのものに見える。
実際，離散的な確率変数しか扱わない初等確率では，それでほとんど困らない。

しかし，計量経済学や統計学で条件付き期待値を使うとき，我々が本当に条件をつけたい対象は，たいてい単なる事象 \(B\) ではない。
むしろ，

ある確率変数 \(Y\) の値がわかっているときの \(X\) の平均
説明変数 \(X\) が与えられたときの従属変数 \(Y\) の平均
手元にある情報 \(\mathcal G\) が与えられたときの将来の収益やショックの平均

のようなものである。

例えば回帰分析で登場する

\[ E[Y\mid X] \]

は，「\(X=x\) という事象に条件をつけた期待値」を \(x\) ごとに並べたものだと思いたくなる。
しかし，この理解はすぐに危うくなる。

事象に条件をつけるだけでは足りない

まず，\(E[Y\mid X]\) と書いた瞬間，我々はもはや一つの事象に条件をつけているのではない。
\(X\) の値がわかっている，という情報全体に条件をつけている。

しかも，\(X\) が連続型確率変数だとすると，通常は

\[ P(X=x)=0 \]

である。
したがって，素朴な定義に従って

\[ E[Y\mid X=x] \]

を

\[ E[Y\mid X=x] = \sum_y y\,P(Y=y\mid X=x) \]

のように書こうとしても，そもそも

\[ P(Y=y\mid X=x) = \frac{P(Y=y,\ X=x)}{P(X=x)} \]

という比は分母が \(0\) になってしまい，意味をなさない。

つまり，回帰分析で最も基本的なオブジェクトである \(E[Y\mid X]\) ですら，素朴な定義では扱えない。

条件付き期待値は「数」ではなく「確率変数」である

さらに重要なのは，\(E[Y\mid X]\) は普通の期待値 \(E[Y]\) のような一つの数ではないということである。

\(E[Y]\) は定数である。
しかし \(E[Y\mid X]\) は，\(X\) の値に応じて変わる量であり，実際には \(X\) の関数になっている。
したがってそれ自体が確率変数である。

例えば，\(Y\) を試験の点数，\(X\) を勉強時間とすると，

\[ E[Y\mid X] \]

は「勉強時間がわかっているときに予想される平均点」である。
勉強時間が 1 時間の人と 10 時間の人ではこの値は違ってよい。したがってこれは，\(\omega\) ごとに値をとるランダムな対象である。

この時点で，条件付き期待値を単なる「条件つきの平均値」として一つの数字だと思っている理解は破綻する。

「何がわかっているか」を事象ではなく情報で表したい

現実の応用では，「条件をつける」とはたいてい「ある情報が手に入っている」ことを意味する。

たとえば，

サイコロの出目そのものがわかっている
コイン投げの結果のうち，表か裏かだけがわかっている
株価過程の過去の履歴だけが観測されている
説明変数の集合は観測されているが，誤差項は観測されていない

といった状況では，「条件」とは単一の事象ではなく，観測可能な情報の集まりである。

確率論では，この「情報の集まり」を \(\sigma\)-加法族で表す。
したがって，本当に一般的な条件付き期待値は

\[ E[X\mid \mathcal G] \]

という形で定義されるべきである。ここで \(\mathcal G\subseteq \mathcal F\) は，「今わかっている情報」を表す \(\sigma\)-加法族である。

この書き方は最初は抽象的に見えるかもしれないが，実は応用上はこちらの方が本質的である。
というのも，

\[ E[Y\mid X] \]

という記法も，本当は「\(X\) が生成する情報」に条件をつけた

\[ E[Y\mid \sigma(X)] \]

の略記だからである。

条件付き期待値は回帰そのものである

計量経済学で条件付き期待値が決定的に重要なのは，回帰分析の本質がまさにこれだからである。

我々が知りたいのはしばしば

\[ m(x)=E[Y\mid X=x] \]

という関数である。
線形回帰

\[ Y=\beta_0+\beta_1 X+u \]

において外生性

\[ E[u\mid X]=0 \]

を仮定するのも，結局は

\[ E[Y\mid X]=\beta_0+\beta_1 X \]

という条件付き期待値の構造を仮定していることにほかならない。

したがって，条件付き期待値を厳密に理解することは，単に確率論の抽象的な定義を覚えることではない。
それは，回帰分析とは何をしているのかを理解することそのものである。

今回やること

以上を踏まえると，条件付き期待値を厳密に定義するときに必要なのは，次の2点である。

条件をつける対象を，単なる事象ではなく，情報を表す \(\sigma\)-加法族として捉えること
条件付き期待値を，一つの数ではなく，その情報に関して可測な確率変数として定義すること

この講義では，まず「条件付き期待値とはどういう性質を持つべきか」を明確にし，その後で厳密な定義を与える。
そして最後に，それが通常の回帰分析や反復期待値の法則とどうつながるかを見る。

独立性

まずは独立性から導入する。教科書によって導入や独立性の定義の仕方、特に確率変数の独立性の定義の仕方は異なる。

このlecture noteでは舟木「確率論」に基本的には則って導入する。

事象の独立性

まず、事象 \(A, B\in \mathcal F\)の独立性について定義する。

定義(事象の独立性) \(A,B\in \mathcal F\)が独立であるとは \[ P(A\bigcap B) = P(A)P(B) \]

が成立することを指す。

補題(同値な主張) 以下は同値

\(A,B\)が独立
\(A^c, B\)が独立
\(A,B^c\)が独立
\(A^c, B^c\)が独立

この補題は以下の含意を持つ。

\(A\) を含む最小の \(\sigma-\) 代数は \(\mathcal F_{A} = \{\emptyset, A,A^c, \Omega\}\) である。同様に、\(B\) を含む最小の \(\sigma-\) 代数は \(\mathcal F_{B} = \{\emptyset, B,B^c, \Omega\}\) である。この時、

\(A\) と \(B\) が独立ならば、\(\forall C_1\in \mathcal F_A,\ \forall C_2 \in \mathcal F_{B}\)に対して、

\[ P(C_1\bigcap C_2) = P(C_1)P(C_2) \]

である。

これは \(\mathcal F_A\) と \(\mathcal F_B\) が独立っぽいと言ってもいい気がする。なぜなら、どちらの \(\sigma-\) 代数に含まれる情報（事象）のどれを取ってきても、その情報が独立だからである。

実際、このようにして \(\sigma-\)代数の独立性を定義する。

\(\sigma-\)代数の独立性

定義(\(\sigma-\)代数二つの独立性) \(\mathcal{F}_1\) と \(\mathcal{F}_2\) を \(\mathcal{F}\) の部分 \(\sigma\)-加法族，すなわち各 \(\mathcal{F}_k\)（\(k=1,2\)）は \(\sigma\)-加法族で，\(\mathcal{F}_k \subset \mathcal{F}\) を満たすとして \(\mathcal{F}_1\) と \(\mathcal{F}_2\) が独立であるとは，任意の \(C_1 \in \mathcal{F}_1\) と \(C_2 \in \mathcal{F}_2\) に対して

\[ P(C_1 \cap C_2) = P(C_1)P(C_2) \]

が成立するときにいう．

この定義をさらに一般化して

定義 (\(\sigma-\)代数たくさんの独立性)
(1) \(\mathcal{F}_1, \mathcal{F}_2, \ldots, \mathcal{F}_n\) を \(\mathcal{F}\) の部分 \(\sigma\)-加法族として \(\mathcal{F}_1, \mathcal{F}_2, \ldots, \mathcal{F}_n\) が独立（independent あるいは jointly independent）であるとは，任意の \(C_k \in \mathcal{F}_k\)（\(1 \leq k \leq n\)）に対して

\[ P(C_1 \cap C_2 \cap \cdots \cap C_n) = \prod_{k=1}^{n} P(C_k) \]

が成立するときにいう．

また，（一般に非可算の）集合 \(\Lambda\) でパラメータづけられた \(\mathcal{F}\) の部分 \(\sigma\)-加法族の集まり \(\{\mathcal{F}_k\}_{k \in \Lambda}\) が独立であるとは，\(\Lambda\) の任意の有限部分集合 \(\{k_1, k_2, \ldots, k_\ell\}\) に対して \(\{\mathcal{F}_{k_j}\}_{j=1,2,\ldots,\ell}\) が独立であるときにいう．

確率変数の独立性

今から、実数値確率変数はすべて同一の確率空間 \((\Omega, \mathcal{F}, P)\) で定義されているものとして，\(k=1,2,\ldots,n\) または \(\Lambda\) は一般の集合として \(k \in \Lambda\) とする。

定義(確率変数の独立性)
(1) \((X_k)_{k=1,2,\ldots,n}\) が独立とは，任意の \(A_1 \in \mathcal{B},\ A_2 \in \mathcal{B},\ldots,A_n \in \mathcal{B}\) に対して

\[ P(X_k \in A_k,\ k=1,2,\ldots,n)=\prod_{k=1}^n P(X_k \in A_k) \]

が成立するときにいう．

さらに一般に、\((X_k)_{k \in \Lambda}\) が独立とは，\(\Lambda\) の任意の有限部分集合 \(\{i_1,i_2,\ldots,i_\ell\}\) と \(A_1 \in \mathcal{B}, A_2 \in \mathcal{B},\ldots,A_\ell \in \mathcal{B}\) に対して

\[ P(X_{k_i}\in A_i,\ i=1,2,\ldots,\ell)=\prod_{i=1}^{\ell} P(X_{k_i}\in A_i) \]

が成立するときにいう．

注意確率変数 \(X\) が生成する \(\sigma\)-加法族を \(\sigma(X)\) とすれば、確率変数列の独立性はそれらが生成する \(\sigma\)-加法族の独立性と同値であることが示せる。しかし、この証明は結構必要な道具が多いので追わなくて良い。

命題 \(X_k\) の分布が確率密度関数 \(p_{X_k}(x)\) をもつとき，\((X_k)_{k=1,2,\ldots,n}\) の独立は，

\[ P(a_1 \leq X_1 \leq b_1,\ a_2 \leq X_2 \leq b_2,\ldots,a_n \leq X_n \leq b_n) = \prod_{k=1}^n \int_{a_k}^{b_k} p_{X_k}(x)\,dx \]

が任意の \(a_1<b_1,\ a_2<b_2,\ldots,a_n<b_n\) に対して成立することと同値である．

さらに、確率変数列の独立性は，可測関数との合成によって保たれる。

補題(独立な確率変数の可測関数での写像も独立) 確率変数列 \((X_k)_{k=1,2,\ldots,n}\) は独立で，\(g_k:S_k\to S_k'\)，\(k=1,2,\ldots,n\) は可測とする．ただし，\((S_k',\mathcal{S}_k')\) は他の可測空間とする．このとき

\[ Y_k=g_k(X_k),\ k=1,2,\ldots,n \]

とおけば，\(S_k'\)-値確率変数列 \((Y_k)_{k=1,2,\ldots,n}\) は独立である．

証明 \(k=1,2,\ldots,n\) に対して

\[ \{Y_k\in A_k'\}=\{X_k\in g_k^{-1}(A_k')\},\qquad A_k'\in\mathcal{S}_k' \]

であることに注意すればよい．

例実数値確率変数 \(X\) と \(Y\) が独立ならば，\(X^2\) と \(Y^2\) は独立である

系 \((X_k)_{k=1,2,\ldots,n}\) は独立な実数値確率変数列で，\(g=g(x_1,x_2,\ldots,x_i):\mathbb{R}^i\to\mathbb{R}\) は可測とする．ただし，\(i<n\) である．このとき

\[ Y=g(X_1,X_2,\ldots,X_i) \]

とおけば \(Y,\ X_{i+1},\ldots,X_n\) は独立な確率変数列である．

証明 \(X=(X_1,X_2,\ldots,X_i)\) は \(\mathbb{R}^i\)-値確率変数であり，\(X,\ X_{i+1},\ldots,X_n\) が独立であることが示せる。したがって，補題3.14 で \(S_1=\mathbb{R}^i,\ S_2=\cdots=S_{n-i+1}=\mathbb{R}\) ととればよい．

（さらっと）独立な確率変数なんて存在するの？

ここまでで確率変数の独立性を定義するはできた。すなわち、一つの確率空間 \((\Omega, \mathcal F,P)\)があったときに、その上に存在する確率変数列が独立であると言うことがどういうことなのかはわかった。

しかし、我々はまだ、そのような確率変数列が存在するのかはわかっていない。もしかしたらそのような独立な確率変数列なんて定義が厳しすぎて存在できないかもしれない。

果たして一つの確率空間上に独立な確率変数列は存在できるのか？

以上のような問題意識が存在する。問題意識が数学者すぎる。

ここでは詳細には触れないが、実際に一つの確率空間上に独立な確率変数列を構成することができることが知られている。詳しくは舟木を参照すること。

そして、その独立な確率変数列の全ての要素が同じ分布を持つとき、independent and identically distributedと言う。これを略してi.i.d.とかく。

条件付き期待値

まずは天下り的に条件付き期待値のフォーマルな定義を与える。直後に確認するように、この定義は最初に書いた「素朴な定義」と特定の条件下では一致する。

混乱しそうな点を注意しておくと、

素朴な定義では「条件付き確率」を定義してからそれを使って「条件付き期待値」を定義していた。

フォーマルな定義では逆で、「条件付き期待値」を定義してからそれを使って「条件付き確率」を定義している。

定義(条件付き期待値)

補題（素朴な定義との一致）

（参考）なぜこの定義？存在するのか？一意なのか？

ラドンニコディムを使う

条件付き期待値の性質と証明

加法性とか

最小二乗法っぽい性質

計量経済学の授業的にはこの性質が最も重要。

\(L^2\) 空間での射影であることの理解