lecture2

本節の内容は基本的に舟木「確率論」に依拠する。これよりわかりやすい確率論の本はこの世に存在しないので、どんなにわからなくてもこの本と睨めっこしていくしかないので注意。

確率論の基礎概念

前回は，無限試行を扱うためには，確率を各点に割り当てるだけでは不十分であり，\(\sigma\)-代数の上に \(\sigma\)-加法的な確率を定義する必要があることを見た。この回では，その上に立って，測度論的確率論の基本対象である確率空間，確率変数，分布，期待値，分散を定義する。後の大数の法則，中心極限定理，条件付き期待値は，すべてここで導入する概念の上に構成される。

確率空間と確率変数

確率空間

定義（\(\sigma\)-代数） 集合 \(\Omega\) の部分集合族 \(\mathcal F\subset 2^\Omega\) が \(\sigma\)-代数であるとは，次を満たすことをいう。

\(\Omega\in\mathcal F\)。
\(A\in\mathcal F\) ならば \(A^c\in\mathcal F\)。
\(A_1,A_2,\dots\in\mathcal F\) ならば \[ \bigcup_{n=1}^\infty A_n\in\mathcal F \] である。

このとき \((\Omega,\mathcal F)\) を可測空間という。\(\mathcal F\) の元を事象という。

めちゃくちゃ重要な例：（ボレル \(\sigma\)-代数） \(\mathbb R\) の開集合全体を含む最小の \(\sigma\)-代数を \(\mathbb R\) のボレル \(\sigma\)-代数といい，

\[ \mathcal B(\mathbb R) \]

と書く。実際にはもっと少ない集合、たとえば以下のように半区間に対して、それを含む最小の\(\sigma\)-代数を考えても同じものになることがわかっているので、

\[ \mathcal B(\mathbb R)=\sigma({(-\infty,x]:x\in\mathbb R}) \]

としてもよい。

定義（確率測度・確率空間） 可測空間 \((\Omega,\mathcal F)\) 上の写像

\[ P:\mathcal F\to[0,1] \]

が確率測度であるとは，次を満たすことをいう。

\(P(\Omega)=1\)。
互いに素な事象列 \(A_1,A_2,\dots\in\mathcal F\) に対して \[ P\left(\bigsqcup_{n=1}^\infty A_n\right) = \sum_{n=1}^\infty P(A_n) \] が成り立つ。

組 \((\Omega,\mathcal F,P)\) を確率空間という。

例（公平なサイコロ） 6面体の公平なサイコロを1回投げる試行では，

\[ \Omega=\{1,2,3,4,5,6\},\qquad \mathcal F=2^\Omega \]

とするのが自然である。各 \(\omega\in\Omega\) に対して

\[ P(\{\omega\})=\frac16 \]

と定めれば，任意の事象 \(A\subset\Omega\) に対して

\[ P(A)=\sum_{\omega\in A}P(\{\omega\}) \]

となる。たとえば，\(A={2,4,6}\) とすれば

\[ P(A)=\frac12 \]

である。

例（無限回のコイン投げ） 無限回のコイン投げでは，

\[ \Omega=\{H,T\}^{\mathbb N} \]

を標本空間とする。ここでは \(\Omega\) は非可算集合であり，すべての部分集合に対して素朴に確率を与えるのではなく，円筒事象から生成される \(\sigma\)-代数の上に確率を定義する。このような例が，測度論的確率論の必要性を示している。

めちゃくちゃ重要な例（区間上の一様な確率空間）
標本空間として区間

\[ \Omega=(0,1),\qquad \mathcal F=\mathcal B((0,1)) \]

を考える。ここで \(\mathcal B((0,1))\) は \((0,1)\) 上のボレル \(\sigma\)-代数である。

この上に，区間の長さを与える測度 \(\lambda\) を入れる。すなわち，開区間 \((a,b)\subset(0,1)\) に対して

\[ \lambda((a,b))=b-a \]

とし，これを \(\mathcal B((0,1))\) 全体に拡張したものをルベーグ測度という。（この拡張ができるか、とかややこしい話が無限にあるが、それは触れない。とにかくこういう都合のいいmeasureがあるとしていい。）

特に

\[ \lambda((0,1))=1 \]

であるから，\(\lambda\) は \((0,1)\) 上の確率測度である。

したがって，

\[ \bigl((0,1),\mathcal B((0,1)),\lambda\bigr) \]

は確率空間になる。

この例は，標本空間が有限集合でなくても自然な確率空間を作れることを示している。後で見るように，この確率空間は連続的な確率変数を考えるときの最も基本的な舞台になる。

命題（確率の基本性質） \(A,B\in\mathcal F\) とする。このとき次が成り立つ。

\(P(\varnothing)=0\)。
\(P(A^c)=1-P(A)\)。
\(A\subset B\) ならば \(P(A)\leq P(B)\)。

\[ P(A\cup B)=P(A)+P(B)-P(A\cap B)。 \] 5. \(A_1\subset A_2\subset\cdots\) かつ \(A=\bigcup_{n=1}^\infty A_n\) ならば \[ P(A_n)\to P(A)。 \] 6. \(A_1\supset A_2\supset\cdots\) かつ \(A=\bigcap_{n=1}^\infty A_n\) ならば \[ P(A_n)\to P(A)。 \]

5, 6 は確率と極限操作の相性のよさを表しており，後の極限定理で繰り返し用いられる。

定義（ほとんど確実，a.s.） 事象 \(A\in\mathcal F\) が

\[ P(A)=1 \]

を満たすとき，\(A\) はほとんど確実に起こるという。また，2つの確率変数 \(X,Y\) に対して

\[ P({\omega\in\Omega:X(\omega)=Y(\omega)})=1 \]

であるとき，

\[ X=Y\quad \text{a.s.} \]

と書く。

定義（部分 \(\sigma\)-代数） \(\mathcal G\subset\mathcal F\) が \(\sigma\)-代数であるとき，\(\mathcal G\) を \(\mathcal F\) の部分 \(\sigma\)-代数という。部分 \(\sigma\)-代数は「観測可能な情報の集まり」とみなされ，後で条件付き期待値を定義する際に重要になる。

確率変数

定義（確率変数） 確率空間 \((\Omega,\mathcal F,P)\) 上の写像

\[ X:\Omega\to\mathbb R \]

が確率変数であるとは，\(X\) が \((\Omega,\mathcal F)\) から \((\mathbb R,\mathcal B(\mathbb R))\) への可測関数であること，すなわち任意の \(B\in\mathcal B(\mathbb R)\) に対して

\[ X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}\in\mathcal F \]

が成り立つことをいう。

要するに，\(X\) の値に関する自然な事象が，すべて確率を持つように要求している。

命題（可測性の判定） 写像 \(X:\Omega\to\mathbb R\) について，次は同値である。

\(X\) は確率変数である。
任意の \(x\in\mathbb R\) に対して \[ \{\omega:X(\omega)\leq x\}\in\mathcal F \] である。
任意の \(x\in\mathbb R\) に対して \[ \{\omega:X(\omega)<x\}\in\mathcal F \] である。

この命題により，実数値確率変数の可測性は半直線の逆像だけを確認すれば十分である。

例（指示関数） \(A\in\mathcal F\) に対して

\[ \mathbf 1_A(\omega)= \begin{cases} 1 & (\omega\in A),\ 0 & (\omega\notin A) \end{cases} \]

と定めると，\(\mathbf 1_A\) は確率変数である。指示関数は「事象」を「数値化した確率変数」とみなすものであり，特に、後々出てくる、期待値との関係

\[ E[\mathbf 1_A]=P(A) \]

は特に重要である。

例（一様確率変数）
確率空間

\[ \bigl((0,1),\mathcal B((0,1)),\lambda\bigr) \]

を考える。ただし \(\lambda\) は \((0,1)\) 上のルベーグ測度である。このとき，

\[ U(\omega)=\omega \]

で定まる関数 \(U:(0,1)\to\mathbb R\) は確率変数である。

特に，任意の \(0<a<b<1\) に対して

\[ \lambda(\{\omega \mid a<U(\omega)\le b\})=b-a \]

である。

この \(U\) を \((0,1)\) 上の一様分布に従う確率変数という。（分布はこの後導入する）

命題（確率変数の演算） \(X,Y\) を確率変数とし，\(a,b\in\mathbb R\) とする。このとき

\[ aX+bY,\quad XY,\quad |X|,\quad \max(X,Y),\quad \min(X,Y) \]

はいずれも確率変数である。より一般に，\(X_1,\dots,X_n\) が確率変数で，\(g:\mathbb R^n\to\mathbb R\) が連続ならば，

\[ g(X_1,\dots,X_n) \]

も確率変数である。

命題(確率変数の極限も確率変数)

定義（生成される \(\sigma\)-代数） 確率変数 \(X\) が生成する \(\sigma\)-代数を

\[ \sigma(X)=\{X^{-1}(B):B\in\mathcal B(\mathbb R)\} \]

と書く。これは \(X\) を可測にする最小の \(\sigma\)-代数である。 \(\sigma(X)\) は「\(X\) を観測することで得られる情報全体」と解釈できる。

命題（生成されているのは\(\sigma-\)代数）

定義（確率ベクトル） 写像

\[ X=(X_1,\dots,X_d):\Omega\to\mathbb R^d \]

が確率ベクトルであるとは，\((\Omega,\mathcal F)\) から \((\mathbb R^d,\mathcal B(\mathbb R^d))\) への可測関数であることをいう。これは，各成分 \(X_1,\dots,X_d\) がそれぞれ確率変数であることと同値である。

分布

定義（分布，法則）
確率変数 \(X:\Omega\to\mathbb R\) に対して，

\[ P_X(B)=P(X\in B)=P(X^{-1}(B)),\qquad B\in\mathcal B(\mathbb R) \]

で定まる \(\mathbb R\) 上の確率測度 \(P_X\) を，\(X\) の分布，あるいは法則という。

したがって，分布とは「\(X\) がどの値の領域にどれだけの確率で入るか」を記述するものであり，背後にある標本空間そのものよりも，\(X\) の値の振る舞いに着目した概念である。

定義（分布関数）
実数値確率変数 \(X\) の分布関数を

\[ F_X(x)=P(X\le x),\qquad x\in\mathbb R \]

で定める。

つまり，

確率変数 \(\to\) 確率測度 \(=\) 分布 \(\to\) 分布関数

という流れである。

命題（分布関数の基本性質）
任意の実数値確率変数 \(X\) の分布関数 \(F_X\) は次を満たす。

\(F_X\) は単調非減少である。
\(F_X\) は右連続である。

\[ \lim_{x\to-\infty}F_X(x)=0,\qquad \lim_{x\to\infty}F_X(x)=1 \]

である。

逆に，これらの性質を持つ関数 \(F:\mathbb R\to[0,1]\) に対しては，ある一意的な確率測度 \(\mu\) が存在して

\[ F(x)=\mu((-\infty,x]) \]

が成り立つ。これを 分布関数 \(F\) に対応するルベーグ–スティルチェス測度 (Lebesgue–Stieltjes measure) という。普通この確率測度 \(\mu\) を \(dF\) と書く。

もしかしたらこれまでどこかで

\[ E[X]=\int x\,dF(x) \]

みたいな表記を見たことがあるかもしれない。このときの \(dF\) はこいつである。

ここでは先ほどの流れが逆転して，

分布関数 \(\to\) 確率測度 \(\mu = dF\) (Lebesgue–Stieltjes measure) \(=\) 分布

となっている。

さらに重要なのは，この分布 \(\mu\) をもつ確率変数を，標準的な確率空間の上で実現できることである。

そのために，確率空間

\[ \bigl((0,1),\mathcal B((0,1)),\lambda\bigr) \]

を考える。ただし \(\lambda\) は \((0,1)\) 上のルベーグ測度である。\(\lambda((0,1))=1\) なので，これは確率測度でもある。
この空間上で恒等写像

\[ U(\omega)=\omega \]

を考えると，\(U\) は \((0,1)\) 上の一様分布に従う確率変数であった。

ここで，最初に与えられる分布関数 \(F\) の generalized inverse を

\[ F^{-1}(u)=\inf\{y\in\mathbb R\mid F(y)\ge u\},\qquad u\in(0,1) \]

で定め，これを用いて

\[ Y(\omega)=F^{-1}(U(\omega))=F^{-1}(\omega) \]

とおく。

すると，\(Y\) は \(\mathbb R\) 上の確率変数になり，その分布はちょうど \(\mu\) になる。すなわち，任意のボレル集合 \(B\in\mathcal B(\mathbb R)\) に対して

\[ \lambda\bigl(Y^{-1}(B)\bigr)=\mu(B) \]

が成り立つ。

特に区間 \((-\infty,x]\) に対しては

\[ \lambda(Y\le x)=\mu((-\infty,x])=F(x) \]

だから，

\[ P(Y\le x)=F(x) \]

となり，\(Y\) はたしかに分布関数 \(F\) を持つ。

ここまでの流れを合わせると，任意の確率変数 \(X\) に対して，その分布関数 \(F_X\) を経由して，同じ分布に従う確率変数を \((0,1)\) 上で作ることができる，ということになる。

確率変数 \(X\) \(\to\) 分布 \(\mu\) \(\to\) 分布関数 \(F\)
\(\to\) generalized inverse \(F^{-1}\)
\(\to\) 一様分布 \(\lambda\) を出発点にした確率変数 \(Y\)

ということである。

この話はただの数学お遊びではない。

任意の分布に従う確率変数から乱数を発生させるときのシミュレーションは，この構成をそのまま実装している。具体的には，コンピュータはまず一様分布 \(\mathrm{Unif}(0,1)\) に従う乱数 \(U\) を発生させ，それを分布関数 \(F\) の generalized inverse に通して

\[ Y=F^{-1}(U) \]

を作る。すると \(Y\) は分布関数 \(F\) に従う。

この方法を 逆関数法 (inverse transform method) という。

確率測度と分布関数の例：Dirac’s \(\delta\)

定義（同分布） 確率変数 \(X,Y\) が同分布であるとは，

\[ P_X=P_Y \]

が成り立つことをいう。実数値確率変数については，これは

\[ F_X(x)=F_Y(x)\qquad (\forall x\in\mathbb R) \]

と同値である。

例（離散分布） \(X\) が高々可算個の値しか取らないとき，確率関数

\[ p_X(x)=P(X=x) \]

を用いて

\[ P_X(B)=\sum_{x\in B}p_X(x) \]

と書ける。このとき \(X\) は離散型確率変数という。

たとえば \(X\) が Bernoulli 分布に従うとは，

\[ P(X=1)=p,\qquad P(X=0)=1-p,\qquad 0\leq p\leq 1 \]

であることをいう。これはコイン投げの表裏を \(1,0\) で表した最も基本的な分布である。

例（密度を持つ分布） ある可測関数 \(f:\mathbb R\to[0,\infty)\) が存在して

\[ \int_{\mathbb R} f(x),dx=1 \]

かつ

\[ P_X(B)=\int_B f(x),dx,\qquad B\in\mathcal B(\mathbb R) \]

が成り立つとき，\(f\) を \(X\) の確率密度関数という。このとき

\[ F_X(x)=\int_{-\infty}^x f(t),dt \]

である。

期待値と分散

ここでは，確率空間 \((\Omega,\mathcal F,P)\) 上の実数値確率変数に対して，期待値と分散を定義する。測度論的確率論では，期待値は本質的には確率測度 \(P\) に関するルベーグ積分である。したがって，期待値に関する基本定理は，ルベーグ積分の基本定理の確率論版とみなすことができる。

期待値の定義

定義（単純確率変数の期待値）
確率変数 \(X\) が有限個の値しかとらないとき，\(X\) を単純確率変数という。非負の単純確率変数は

\[ X(\omega)=\sum_{i=1}^k a_i \mathbf 1_{C_i}(\omega), \qquad a_i\geq 0,\ C_i\in\mathcal F \]

の形に書ける。このとき，\(X\) の期待値を

\[ E[X]=\sum_{i=1}^k a_i P(C_i) \]

で定める。

定義（非負確率変数の期待値）
一般の非負確率変数 \(X\geq 0\) に対しては，\(X_n\uparrow X\) を満たす単純確率変数列 \((X_n)\) をとり，

\[ E[X]=\lim_{n\to\infty}E[X_n]\in[0,\infty] \]

で定める。右辺の極限は，近似列 \((X_n)\) のとり方によらない。

たとえば，\(X\geq 0\) に対して

\[ X_n(\omega) = \sum_{i=0}^{n2^n-1}\frac{i}{2^n}\, \mathbf 1_{\left\{\frac{i}{2^n}\leq X(\omega)<\frac{i+1}{2^n}\right\}} + n\,\mathbf 1_{\{X(\omega)\geq n\}} \]

とおけば，\(X_n\) は単純確率変数であり，\(X_n(\omega)\uparrow X(\omega)\) が成り立つ。

定義（一般の確率変数の期待値）
一般の確率変数 \(X\) に対して，その正部分・負部分を

\[ X^+=\max(X,0),\qquad X^-=\max(-X,0) \]

で定める。すると

\[ X=X^+-X^-, \qquad |X|=X^++X^- \]

が成り立つ。\(E[X^+]<\infty\) または \(E[X^-]<\infty\) の少なくとも一方が成り立つとき，

\[ E[X]=E[X^+]-E[X^-] \]

で \(X\) の期待値を定める。特に

\[ E[|X|]<\infty \]

が成り立つとき，\(X\) は可積分であるという。

定義（事象上の期待値）
\(A\in\mathcal F\) に対して，

\[ E[X,A] \equiv E[X \mathbf 1_A] \]

と定める。

気をつけたいのは、ここまで書いたのは「定義」であるということ。具体的に期待値はこうやって計算するんだよ、ということは述べていない。それでも次の述べるような基本的な性質を満たすオブジェクトであることは示すことができる。

期待値の基本性質

以下では，必要な期待値が有限に定義されているとする。

命題（期待値の基本性質）
確率変数 \(X,Y\) と定数 \(\alpha,\beta\in\mathbb R\) に対して，次が成り立つ。

線形性 \[ E[\alpha X+\beta Y]=\alpha E[X]+\beta E[Y]. \]
単調性 \[ X\leq Y\ \text{a.s.} \quad\Longrightarrow\quad E[X]\leq E[Y]. \]
絶対値評価 \[ |E[X]|\leq E[|X|]. \]
指示関数に対して \[ E[\mathbf 1_A]=P(A),\qquad A\in\mathcal F. \]

期待値に関する不等式

定理（Markov–Chebyshev 型の不等式）
\(\psi:\mathbb R\to[0,\infty)\) をボレル可測関数とし，\(A\in\mathcal B(\mathbb R)\) に対して \(\inf_{x\in A}\psi(x)>0\) とする。このとき

\[ P(X\in A) \leq \frac{E[\psi(X)]}{\inf_{x\in A}\psi(x)} \]

が成り立つ。

特に，\(\psi(x)=|x|^p\)，\(A=\{x:|x|\geq \varepsilon\}\)，\(\varepsilon>0\) とすれば

\[ P(|X|\geq \varepsilon) \leq \frac{E[|X|^p]}{\varepsilon^p} \]

を得る。

定理（Jensen の不等式）
\(\psi:\mathbb R\to\mathbb R\) を凸関数とする。\(E[|X|]<\infty\) かつ \(E[|\psi(X)|]<\infty\) ならば

\[ \psi(E[X])\leq E[\psi(X)] \]

が成り立つ。

定理（Hölder の不等式）
\(1<p,q<\infty\) で

\[ \frac1p+\frac1q=1 \]

とする。\(E[|X|^p]<\infty\)，\(E[|Y|^q]<\infty\) ならば

\[ E[|XY|] \leq E[|X|^p]^{1/p}E[|Y|^q]^{1/q} \]

が成り立つ。

系（Cauchy–Schwarz の不等式）
\(X,Y\in L^2\) ならば

\[ |E[XY]| \leq E[X^2]^{1/2}E[Y^2]^{1/2} \]

が成り立つ。特に \(Y=1\) とすれば

\[ (E[X])^2\leq E[X^2] \]

を得る。

期待値と極限操作

大数の法則や中心極限定理を扱うためには，期待値と極限を交換できる条件が重要になる。

定理（Lebesgueの優収束定理）
確率変数列 \((X_n)\) と確率変数 \(X\) が

\[ X_n\to X \quad \text{a.s.} \]

を満たし，さらに可積分な確率変数 \(Y\) が存在して

\[ |X_n|\leq Y \qquad (n=1,2,\dots) \]

が成り立つとする。このとき

\[ \lim_{n\to\infty}E[X_n]=E[X] \]

である。

定理（単調収束定理）
\(0\leq X_1\leq X_2\leq\cdots\) かつ

\[ X_n\to X \quad \text{a.s.} \]

ならば

\[ \lim_{n\to\infty}E[X_n]=E[X] \]

が成り立つ。

定理（Fatou の補題）
\(X_n\geq 0\) ならば

\[ E\!\left[\liminf_{n\to\infty}X_n\right] \leq \liminf_{n\to\infty}E[X_n] \]

が成り立つ。

これらの結果は，非負確率変数の期待値の定義そのものや，後に扱う極限定理の証明で基本的な役割を果たす。

分散・共分散・モーメント

定義（分散）
\(E[X^2]<\infty\) とする。このとき \(X\) の分散を

\[ \operatorname{Var}(X)=E[(X-E[X])^2] \]

で定める。

定義（共分散）
\(E[X^2]<\infty\)，\(E[Y^2]<\infty\) のとき，\(X,Y\) の共分散を

\[ \operatorname{Cov}(X,Y) = E[(X-E[X])(Y-E[Y])] \]

で定める。

定義（モーメント）
\(n\in\mathbb N\) に対して，\(E[|X|^n]<\infty\) ならば

\[ E[X^n] \]

を \(X\) の \(n\) 次モーメントという。また，

\[ E[(X-E[X])^n] \]

を \(n\) 次中心モーメントという。

命題（分散と共分散の基本公式）
二乗可積分確率変数 \(X,Y\) に対して，次が成り立つ。

\[ \operatorname{Var}(X)=E[X^2]-(E[X])^2. \]
\[ \operatorname{Cov}(X,Y)=E[XY]-E[X]E[Y]. \]
\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X)+\operatorname{Var}(Y)+2\operatorname{Cov}(X,Y). \]
任意の \(a,b\in\mathbb R\) に対して \[ \operatorname{Var}(aX+b)=a^2\operatorname{Var}(X). \]

系（Chebyshev の不等式）
\(E[X^2]<\infty\) とし，\(\varepsilon>0\) とする。このとき

\[ P(|X-E[X]|\geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2} \]

が成り立つ。

これは，上の Markov–Chebyshev 型の不等式を \(|X-E[X]|^2\) に適用したものである。

分布による表示

今までは期待値の定義から従う基本的な性質を述べてきた。しかし，この段階ではまだ，期待値を実際にどう計算するかという問題が残っている。

定義に忠実にやるなら，まず単純確率変数で近似して，その期待値を極限で定める，という手順を踏むことになる。しかし，実際に期待値を計算するときに，毎回この構成に立ち返るのはあまりにも不便である。

実は，期待値や分散は，確率変数そのものの定義域 \(\Omega\) を見なくても，その分布だけから計算することができる。これが，我々が実際に期待値を計算するときに使っている方法に対応している。

定理（分布による期待値の表示）
\(X\) を実数値確率変数，\(g:\mathbb R\to\mathbb R\) をボレル可測関数とする。このとき，\(g(X)\) が期待値を持つなら，\(E[g(X)]\) は \(X\) の分布だけで決まる。

特に，\(X\) が離散型で確率関数 \(p_X\) を持つなら

\[ E[g(X)]=\sum_x g(x)p_X(x) \]

である。

また，\(X\) が連続型で密度関数 \(f_X\) を持つなら

\[ E[g(X)]=\int_{\mathbb R} g(x)f_X(x)\,dx \]

である。

したがって，特に

\[ E[X]=\sum_x x\,p_X(x) \qquad\text{または}\qquad E[X]=\int_{\mathbb R} x f_X(x)\,dx \]

であり，

\[ E[X^n]=\sum_x x^n p_X(x) \qquad\text{または}\qquad E[X^n]=\int_{\mathbb R} x^n f_X(x)\,dx \]

となる。

さらに分散も

\[ \operatorname{Var}(X)=E[(X-E[X])^2] \]

だから，離散型なら

\[ \operatorname{Var}(X)=\sum_x (x-E[X])^2p_X(x), \]

連続型なら

\[ \operatorname{Var}(X)=\int_{\mathbb R}(x-E[X])^2 f_X(x)\,dx \]

と書ける。

要するに，期待値とは「値そのものの平均」ではなく，それぞれの値を，その値が出る確率で重み付けした平均である。離散型ではそれが和になり，連続型では積分になる。

なお，離散型と連続型をまとめて書くと

\[ E[g(X)]=\int_{\mathbb R} g(x)\,P_X(dx) \]

と表せる。この記法の意味は，「\(\Omega\) 上で \(g(X(\omega))\) を積分する代わりに，\(\mathbb R\) 上で \(X\) の分布に関して平均をとっている」ということである。この授業ではまず離散型と密度を持つ連続型の場合を中心に使えば十分である。

代表的な分布の例

最後に，分布による表示を実際に使って，いくつかの代表的な分布について期待値や分散を計算してみる。

二項分布

定義
確率変数 \(X\) がパラメータ \(n\in\mathbb N\)，\(p\in[0,1]\) の二項分布に従うとは，

\[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\qquad k=0,1,\dots,n \]

が成り立つことをいう。これを

\[ X\sim \mathrm{Bin}(n,p) \]

と書く。

このとき期待値は

\[ E[X]=\sum_{k=0}^n k\binom{n}{k}p^k(1-p)^{n-k} \]

である。これを直接計算してもよいが，少し工夫すると

\[ k\binom{n}{k}=n\binom{n-1}{k-1} \]

だから，

\[ E[X] = \sum_{k=1}^n n\binom{n-1}{k-1}p^k(1-p)^{n-k} \]

\[ = np\sum_{k=1}^n \binom{n-1}{k-1}p^{k-1}(1-p)^{(n-1)-(k-1)} \]

となる。ここで \(j=k-1\) とおけば，

\[ E[X] = np\sum_{j=0}^{n-1}\binom{n-1}{j}p^j(1-p)^{(n-1)-j} = np \]

を得る。

次に分散を求める。まず

\[ E[X(X-1)] = \sum_{k=0}^n k(k-1)\binom{n}{k}p^k(1-p)^{n-k} \]

であるが，

\[ k(k-1)\binom{n}{k}=n(n-1)\binom{n-2}{k-2} \]

を用いると，

\[ E[X(X-1)] = n(n-1)p^2 \]

となる。したがって

\[ E[X^2]=E[X(X-1)]+E[X]=n(n-1)p^2+np \]

であり，

\[ \operatorname{Var}(X)=E[X^2]-(E[X])^2 \]

より

\[ \operatorname{Var}(X)=np(1-p) \]

を得る。

ポワソン分布

定義
確率変数 \(X\) がパラメータ \(\lambda>0\) のポワソン分布に従うとは，

\[ P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\qquad k=0,1,2,\dots \]

が成り立つことをいう。これを

\[ X\sim \mathrm{Poisson}(\lambda) \]

と書く。

このとき期待値は

\[ E[X] = \sum_{k=0}^\infty k\,e^{-\lambda}\frac{\lambda^k}{k!} \]

である。\(k=0\) の項は \(0\) なので \(k\ge1\) に限って，

\[ E[X] = e^{-\lambda}\sum_{k=1}^\infty k\frac{\lambda^k}{k!} = e^{-\lambda}\sum_{k=1}^\infty \lambda\frac{\lambda^{k-1}}{(k-1)!} \]

\[ = \lambda e^{-\lambda}\sum_{j=0}^\infty \frac{\lambda^j}{j!} = \lambda e^{-\lambda}e^\lambda = \lambda \]

となる。

同様に，

\[ E[X(X-1)] = \sum_{k=0}^\infty k(k-1)e^{-\lambda}\frac{\lambda^k}{k!} \]

についても，

\[ k(k-1)\frac{1}{k!}=\frac{1}{(k-2)!} \]

を使えば

\[ E[X(X-1)] = e^{-\lambda}\sum_{k=2}^\infty \lambda^2\frac{\lambda^{k-2}}{(k-2)!} = \lambda^2 \]

となる。したがって

\[ E[X^2]=E[X(X-1)]+E[X]=\lambda^2+\lambda \]

なので，

\[ \operatorname{Var}(X)=E[X^2]-(E[X])^2=\lambda \]

である。

つまりポワソン分布では，

\[ E[X]=\lambda,\qquad \operatorname{Var}(X)=\lambda \]

となり，期待値と分散が一致する。

正規分布

定義
確率変数 \(X\) が平均 \(\mu\in\mathbb R\)，分散 \(\sigma^2>0\) の正規分布に従うとは，密度関数が

\[ f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right),\qquad x\in\mathbb R \]

で与えられることをいう。これを

\[ X\sim N(\mu,\sigma^2) \]

と書く。

まず期待値を求めるために，変数変換

\[ z=\frac{x-\mu}{\sigma} \]

を用いる。すると

\[ E[X] = \int_{-\infty}^{\infty}x\,f_X(x)\,dx = \int_{-\infty}^{\infty}(\mu+\sigma z)\frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz \]

となる。これを分けると

\[ E[X] = \mu \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz + \sigma \int_{-\infty}^{\infty}z\frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz \]

である。第1項は \(\mu\)，第2項は奇関数の積分なので \(0\) である。したがって

\[ E[X]=\mu \]

を得る。

次に分散は

\[ \operatorname{Var}(X)=E[(X-\mu)^2] \]

だから，

\[ E[(X-\mu)^2] = \int_{-\infty}^{\infty}(x-\mu)^2f_X(x)\,dx \]

に同じ変数変換を用いると

\[ E[(X-\mu)^2] = \int_{-\infty}^{\infty}\sigma^2 z^2 \frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz = \sigma^2 \int_{-\infty}^{\infty} z^2 \frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz \]

となる。そして標準正規分布について

\[ \int_{-\infty}^{\infty} z^2 \frac{1}{\sqrt{2\pi}}e^{-z^2/2}\,dz=1 \]

が成り立つので，

\[ \operatorname{Var}(X)=\sigma^2 \]

を得る。

したがって正規分布では

\[ E[X]=\mu,\qquad \operatorname{Var}(X)=\sigma^2 \]

である。

指数分布

定義
確率変数 \(X\) がパラメータ \(\lambda>0\) の指数分布に従うとは，密度関数が

\[ f_X(x)=\lambda e^{-\lambda x},\qquad x\ge 0 \]

で与えられることをいう。これを

\[ X\sim \mathrm{Exp}(\lambda) \]

と書く。

期待値は

\[ E[X] = \int_0^\infty x\lambda e^{-\lambda x}\,dx \]

である。部分積分を用いると，

\[ u=x,\qquad dv=\lambda e^{-\lambda x}dx \]

とおけるので，

\[ du=dx,\qquad v=-e^{-\lambda x} \]

である。したがって

\[ E[X] = \left[-xe^{-\lambda x}\right]_0^\infty + \int_0^\infty e^{-\lambda x}\,dx \]

となる。第1項は \(0\) であり，第2項は

\[ \int_0^\infty e^{-\lambda x}\,dx=\frac{1}{\lambda} \]

だから，

\[ E[X]=\frac{1}{\lambda} \]

を得る。

次に2次モーメントは

\[ E[X^2]=\int_0^\infty x^2\lambda e^{-\lambda x}\,dx \]

であり，部分積分を2回使うと

\[ E[X^2]=\frac{2}{\lambda^2} \]

となる。したがって

\[ \operatorname{Var}(X)=E[X^2]-(E[X])^2 = \frac{2}{\lambda^2}-\frac{1}{\lambda^2} = \frac{1}{\lambda^2} \]

である。

つまり指数分布では

\[ E[X]=\frac{1}{\lambda},\qquad \operatorname{Var}(X)=\frac{1}{\lambda^2} \]

となる。