lecture6

確率論の基礎概念その5：中心極限定理

今回は中心極限定理を扱う。

前回の大数の法則は \[ \bar X_n = \frac{1}{n}\sum_{i=1}^n X_i \to \mu \] という主張だった。つまり，標本平均は母平均に近づく。

しかし計量経済学で本当に欲しいのは，それだけではない。推定量がどのくらいのスケールで揺れるのか，その揺れがどんな分布で近似できるのか，を知りたい。信頼区間，\(t\) 統計量，Wald 検定，GMM の漸近分布などは，全部ここに立っている。

中心極限定理（CLT）が教えてくれるのは，

標本平均のズレはだいたい \(n^{-1/2}\) の大きさであり
そのズレを \(\sqrt{n}\) 倍すると
極限では正規分布で近似できる

という事実である。

今回は特性関数は使わない。
その代わり，Lindeberg のアイデアに沿って，

まず i.i.d. の場合の CLT を述べる
次に三角配列に対する Lindeberg–Feller の中心極限定理を述べる
その十分条件の部分を，ガウス変数への1個ずつの入れ替えと Taylor 展開で示す
最後にシミュレーションで「なぜ正規になるのか」「なぜ 1 個だけ大きいショックがあると壊れるのか」を見る

という流れで進む。

何を知りたいのか：平均の極限ではなく，平均の揺れの極限

\(X_1,X_2,\dots\) を i.i.d. とし， \[ E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2<\infty \] とする。

大数の法則は \[ \bar X_n \overset{p}{\to} \mu \] を与える。しかし，これだけでは統計的推測はできない。
たとえば「\(\bar X_n\) は \(\mu\) の近くにいる」と言われても，その近さが \(1/n\) のオーダーなのか，\(1/\sqrt{n}\) のオーダーなのか，あるいはもっと遅いのかは，LLN だけではわからない。

そこで，自然に \[ \sqrt{n}(\bar X_n-\mu) \] を見る。

なぜ \(\sqrt{n}\) なのか。分散を計算すると， \[ \mathrm{Var}\!\left(\sqrt{n}(\bar X_n-\mu)\right) = \mathrm{Var}\!\left(\frac{1}{\sqrt{n}}\sum_{i=1}^n (X_i-\mu)\right) = \frac{1}{n}\sum_{i=1}^n \mathrm{Var}(X_i-\mu) = \sigma^2. \] つまり，\(\bar X_n-\mu\) 自体は 0 に縮んでいくが，\(\sqrt{n}\) 倍すると分散が消えず，ちょうど非退化な極限が期待できる。

この \[ \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma} \] が極限で \(N(0,1)\) になる，というのが CLT の中身である。

分布収束

CLT は確率収束ではなく，分布収束の定理である。

定義（分布収束）
確率変数列 \(Y_n\) が確率変数 \(Y\) に分布収束するとは，\(Y\) の分布関数 \(F_Y\) の連続点 \(t\) すべてに対して \[ P(Y_n\le t) \to P(Y\le t) \qquad (n\to\infty) \] が成り立つことをいう。これを \[ Y_n \overset{d}{\to} Y \] と書く。

CLT で言いたいのは，たとえば \[ \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma} \overset{d}{\to} N(0,1) \] である。

ここで重要なのは，分布収束は「各 \(n\) で定義された確率変数の分布が，だんだんある極限分布に近づく」という主張であって，1 本の標本経路の上での収束を言っているわけではない，という点である。

この講義では，分布収束をtest functionで見る見方も使う。
直感的には，「十分多くの滑らかな関数 \(h\) に対して \(E[h(Y_n)]\) が \(E[h(Y)]\) に近いなら，\(Y_n\) と \(Y\) の分布は近い」と考える。

厳密には，

標準事実：\(Y_n \overset{d}{\to} Y\) であることと，任意の有界 Lipschitz 関数 \(h\) に対して \[ E[h(Y_n)]\to E[h(Y)] \] が成り立つことは同値である。

今回は，まず滑らかな関数について収束を示し，そこから分布収束へ移る。

古典的な中心極限定理

まずはいちばんよく見る形を述べる。

定理（Lindeberg–Lévy の中心極限定理）
\(X_1,X_2,\dots\) を i.i.d. 実数値確率変数列とし， \[ E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2\in(0,\infty) \] とする。このとき \[ \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma} = \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i-\mu) \overset{d}{\to} N(0,1) \] が成り立つ。

同値な書き方をすれば，\(n\) が大きいとき \[ \bar X_n \approx N\!\left(\mu,\frac{\sigma^2}{n}\right) \] である。

これは，計量経済学での最初の本格的な漸近近似である。
母分散 \(\sigma^2\) が有限なら，平均の誤差は \(n^{-1/2}\) オーダーで，しかも形は正規分布になる。

シミュレーション：かなり歪んだ分布でも平均は正規に近づく

CLT のいちばん大事なメッセージは，元の分布が正規でなくても，平均は正規に近づくということである。

ここでは，かなり歪んでいる Exponential\((1)\) 分布を使う。
この分布は \[ E[X_i]=1,\qquad \mathrm{Var}(X_i)=1 \] なので，CLT の対象は \[ Z_n = \sqrt{n}(\bar X_n-1) \] である。CLT によれば，\(Z_n\) は \(N(0,1)\) に近づくはずである。

\(n=1,2\) ではまだかなり右に歪んでいるが，\(n=30,100\) くらいになると，かなり正規密度に近い形になる。
これが CLT の絵である。

大数の法則が教えるのは「平均が母平均に近づく」ことだった。
それに対して CLT は，「そのズレを \(\sqrt{n}\) 倍して見ると，正規的な揺れが残る」ことを教えている。

なぜ三角配列が出てくるのか

古典的な CLT をそのまま証明してもよいのだが，計量経済学ではもう少し一般の形の方が使いやすい。そこで，三角配列という書き方を導入する。

三角配列

三角配列とは， \[ \{X_{ni}: i=1,\dots,k_n,\ n=1,2,\dots\} \] の形に並んだ確率変数族のことである。\(n\) 行目には \(k_n\) 個の確率変数がある。

\(i.i.d.\) の CLT をこの形で書くと， \[ X_{ni}=\frac{X_i-\mu}{\sigma\sqrt{n}},\qquad i=1,\dots,n \] であり，\(n\) 行目の長さは \(n\) である。
だから CLT の自然な一般化は，実は最初から三角配列で書かれる。

三角配列を使うと，

各観測の分散がバラバラでもよい
行ごとに分布が変わってもよい
「1 個の観測が支配的でない」という条件をはっきり書ける

という利点がある。

Lindeberg 条件

以下では，各 \(n\) について \[ X_{n1},\dots,X_{nk_n} \] は独立， \[ E[X_{ni}]=0, \qquad \sigma_{ni}^2:=\mathrm{Var}(X_{ni}), \qquad s_n^2:=\sum_{i=1}^{k_n}\sigma_{ni}^2 \] とする。

CLT の主役は行和 \[ S_n:=\sum_{i=1}^{k_n} X_{ni} \] であり，その標準化 \[ \frac{S_n}{s_n} \] を考える。

定義（Lindeberg 条件）
任意の \(\varepsilon>0\) に対して \[ \frac{1}{s_n^2} \sum_{i=1}^{k_n} E\Bigl[X_{ni}^2\,1\{|X_{ni}|>\varepsilon s_n\}\Bigr] \to 0 \qquad (n\to\infty) \] が成り立つとき，この三角配列は Lindeberg 条件を満たすという。

この条件の意味ははっきりしている。
全体の分散規模 \(s_n^2\) に比べて，大きすぎるジャンプが作る寄与は無視できる，ということである。

言い換えれば，正規極限が出るためには

分散はたくさんの小さいショックの和でできていてほしい
1 個か 2 個の巨大な観測が全部を支配してはいけない

のである。

Lindeberg–Feller の中心極限定理

定理（Lindeberg–Feller CLT：十分条件）
\(\{X_{ni}\}\) を各行で独立な平均 0 の三角配列とし， \[ s_n^2 = \sum_{i=1}^{k_n} \mathrm{Var}(X_{ni}) > 0 \] とする。もし任意の \(\varepsilon>0\) に対して \[ \frac{1}{s_n^2} \sum_{i=1}^{k_n} E\Bigl[X_{ni}^2\,1\{|X_{ni}|>\varepsilon s_n\}\Bigr] \to 0 \] が成り立つならば， \[ \frac{1}{s_n}\sum_{i=1}^{k_n} X_{ni} \overset{d}{\to} N(0,1) \] が成り立つ。

厳密な Lindeberg–Feller 定理は，Feller 条件のもとでこの条件がほぼ必要でもあることを述べるが，ここでは十分条件の部分だけを使えば十分である。

証明に入る前に，この条件が「1 個の観測の支配を禁止している」ことをまず確認しておく。

補題：Lindeberg 条件は「最大分散比率が 0 に行く」ことを含意する

補題
Lindeberg 条件が成り立つならば \[ \max_{1\le i\le k_n} \frac{\sigma_{ni}^2}{s_n^2} \to 0 \] が成り立つ。

証明
標準化して \(s_n=1\) としてよい。任意の \(\varepsilon>0\) に対して \[ \sigma_{ni}^2 = E\bigl[X_{ni}^2 1\{|X_{ni}|\le \varepsilon\}\bigr] + E\bigl[X_{ni}^2 1\{|X_{ni}|> \varepsilon\}\bigr] \le \varepsilon^2 + E\bigl[X_{ni}^2 1\{|X_{ni}|> \varepsilon\}\bigr]. \] したがって \[ \max_i \sigma_{ni}^2 \le \varepsilon^2 + \sum_{i=1}^{k_n} E\bigl[X_{ni}^2 1\{|X_{ni}|>\varepsilon\}\bigr]. \] 右辺第2項は Lindeberg 条件により 0 に行く。よって \[ \limsup_{n\to\infty} \max_i \sigma_{ni}^2 \le \varepsilon^2. \] \(\varepsilon>0\) は任意だから，\(\max_i \sigma_{ni}^2\to 0\) が従う。一般の \(s_n\) の場合も，同じ議論を \(X_{ni}/s_n\) に適用すればよい。\(\square\)

この補題の意味は重要である。
Lindeberg 条件が成り立つとき，1 個の観測が全体分散の大きな割合を持つことはできない。
だから極限では「多数の小さいショックの和」という状況が生まれる。

証明の戦略：ガウス列に 1 個ずつ入れ替える

ここからが今回の核心である。

特性関数を使う代わりに，\(X_{ni}\) と同じ分散を持つガウス変数 \(Y_{ni}\) を作る。すると \[ T_n := \sum_{i=1}^{k_n} Y_{ni} \] はちょうど正規分布になる。
したがって，示したいことは \[ S_n = \sum_{i=1}^{k_n} X_{ni} \] が，分布の意味で \(T_n\) に近い，ということである。

そのために，\(X_{n1},\dots,X_{nk_n}\) を一気に置き換えるのではなく，

まず \(X_{n1}\) を \(Y_{n1}\) に置き換える
次に \(X_{n2}\) を \(Y_{n2}\) に置き換える
これを 1 個ずつ繰り返す

というtelescopingを使う。

そして 1 回の置き換えで生じる差を Taylor 展開で評価する。
1 次と 2 次の項は，平均 0 と分散一致によって打ち消し合う。
残る 3 次以降の剰余が小さいことを，Lindeberg 条件で押さえる。

これが Lindeberg の方法である。

Lindeberg–Feller の証明

以下，見通しをよくするために，まず \[ s_n^2 = \sum_{i=1}^{k_n}\sigma_{ni}^2 = 1 \] と正規化された場合を示す。一般の場合は最後に \(X_{ni}/s_n\) を考えればよい。

また \[ C_b^3(\mathbb R) \] を，3 回連続微分可能で，関数自身と 1,2,3 階微分がすべて有界な関数の集合とする。

第1段階：滑らかな test function に対しては正規極限が出る

補題
\(s_n^2=1\) とし，Lindeberg 条件が成り立つとする。このとき任意の \(h\in C_b^3(\mathbb R)\) に対して \[ E\bigl[h(S_n)\bigr] \to E\bigl[h(Z)\bigr], \qquad Z\sim N(0,1) \] が成り立つ。

証明
各 \(n,i\) に対して，\(Y_{ni}\sim N(0,\sigma_{ni}^2)\) を独立に取り，さらに \(\{X_{ni}\}\) とも独立とする。すると \[ T_n := \sum_{i=1}^{k_n} Y_{ni} \sim N(0,1) \] である。

各 \(i\) について \[ W_{ni} := \sum_{j<i} Y_{nj} + \sum_{j>i} X_{nj} \] とおく。すると telescoping により \[ E[h(S_n)] - E[h(T_n)] = \sum_{i=1}^{k_n} E\Bigl[h(W_{ni}+X_{ni}) - h(W_{ni}+Y_{ni})\Bigr]. \]

ここで \[ R_h(x,u) := h(x+u)-h(x)-h'(x)u-\frac12 h''(x)u^2 \] とおく。

\(W_{ni}\) は \(X_{ni},Y_{ni}\) と独立であり， \[ E[X_{ni}]=E[Y_{ni}]=0, \qquad E[X_{ni}^2]=E[Y_{ni}^2]=\sigma_{ni}^2 \] だから，1 次と 2 次の項は消えて \[ E\Bigl[h(W_{ni}+X_{ni}) - h(W_{ni}+Y_{ni})\Bigr] = E\bigl[R_h(W_{ni},X_{ni})\bigr] - E\bigl[R_h(W_{ni},Y_{ni})\bigr]. \] したがって \[ |E[h(S_n)]-E[h(T_n)]| \le \sum_{i=1}^{k_n} E\bigl|R_h(W_{ni},X_{ni})\bigr| + \sum_{i=1}^{k_n} E\bigl|R_h(W_{ni},Y_{ni})\bigr|. \]

ここで任意の \(\eta>0\) を固定する。

まず \(|u|\le \eta\) のとき，Taylor の剰余項評価より \[ |R_h(x,u)| \le \frac{1}{6}\|h'''\|_\infty |u|^3 \le \frac{\eta}{6}\|h'''\|_\infty u^2. \]

次に \(|u|>\eta\) のときは粗く評価して \[ |R_h(x,u)| \le 2\|h\|_\infty + \|h'\|_\infty |u| + \frac12\|h''\|_\infty u^2. \] しかも \(|u|>\eta\) なら \(1\le u^2/\eta^2\)，\(|u|\le u^2/\eta\) なので \[ |R_h(x,u)| \le A_h(\eta) u^2, \] ただし \[ A_h(\eta) := \frac{2\|h\|_\infty}{\eta^2} + \frac{\|h'\|_\infty}{\eta} + \frac12\|h''\|_\infty. \]

以上を合わせると，すべての \(x,u\) に対して \[ |R_h(x,u)| \le \frac{\eta}{6}\|h'''\|_\infty u^2 + A_h(\eta) u^2 1\{|u|>\eta\}. \] よって \[ \sum_{i=1}^{k_n} E\bigl|R_h(W_{ni},X_{ni})\bigr| \le \frac{\eta}{6}\|h'''\|_\infty \sum_{i=1}^{k_n} E[X_{ni}^2] + A_h(\eta) \sum_{i=1}^{k_n} E\bigl[X_{ni}^2 1\{|X_{ni}|>\eta\}\bigr]. \] 今 \(\sum_i E[X_{ni}^2]=1\) だから \[ \sum_{i=1}^{k_n} E\bigl|R_h(W_{ni},X_{ni})\bigr| \le \frac{\eta}{6}\|h'''\|_\infty + A_h(\eta) \sum_{i=1}^{k_n} E\bigl[X_{ni}^2 1\{|X_{ni}|>\eta\}\bigr]. \] Lindeberg 条件より，右辺第2項は \(n\to\infty\) で 0 に行く。

同様に \[ \sum_{i=1}^{k_n} E\bigl|R_h(W_{ni},Y_{ni})\bigr| \le \frac{\eta}{6}\|h'''\|_\infty + A_h(\eta) \sum_{i=1}^{k_n} E\bigl[Y_{ni}^2 1\{|Y_{ni}|>\eta\}\bigr]. \] ここで先ほどの補題より \[ \delta_n := \max_i \sigma_{ni} \to 0. \] \(G\sim N(0,1)\) とおき \[ \psi(t):=E\bigl[G^2 1\{|G|>t\}\bigr] \] と書くと，\(\psi(t)\downarrow 0\) as \(t\to\infty\) である。しかも \[ E\bigl[Y_{ni}^2 1\{|Y_{ni}|>\eta\}\bigr] = \sigma_{ni}^2 E\bigl[G^2 1\{|G|>\eta/\sigma_{ni}\}\bigr] \le \sigma_{ni}^2 \psi(\eta/\delta_n). \] したがって \[ \sum_{i=1}^{k_n} E\bigl[Y_{ni}^2 1\{|Y_{ni}|>\eta\}\bigr] \le \psi(\eta/\delta_n)\sum_{i=1}^{k_n}\sigma_{ni}^2 = \psi(\eta/\delta_n) \to 0. \]

以上より \[ \limsup_{n\to\infty}|E[h(S_n)]-E[h(T_n)]| \le \frac{\eta}{3}\|h'''\|_\infty. \] \(\eta>0\) は任意なので，右辺を 0 にできる。したがって \[ E[h(S_n)]-E[h(T_n)] \to 0. \] しかも \(T_n\sim N(0,1)\) だから \[ E[h(T_n)] = E[h(Z)] \qquad (Z\sim N(0,1)). \] よって \[ E[h(S_n)] \to E[h(Z)] \] が示された。\(\square\)

ここまでで，「滑らかな関数で見れば \(S_n\) は正規に近い」ことが示された。

第2段階：滑らかな test function の収束から分布収束へ

次に，これが本当に CLT を意味することを確認する。

補題
確率変数列 \(U_n\) と確率変数 \(U\) が \[ E[h(U_n)]\to E[h(U)] \qquad \text{for all } h\in C_b^3(\mathbb R) \] を満たすとする。このとき \[ U_n \overset{d}{\to} U \] が成り立つ。

証明
上で述べた標準事実により，有界 Lipschitz 関数について期待値が収束することを示せば十分である。そこで \(g\) を任意の有界 Lipschitz 関数とする。

\(V\sim N(0,1)\) を \(U_n,U\) と独立に取り，\(\varepsilon>0\) に対して \[ g_\varepsilon(x):=E[g(x+\varepsilon V)] \] と定める。これは \(g\) をガウス核で平滑化したもので，\(g_\varepsilon\in C_b^{\infty}(\mathbb R)\)，したがって特に \(g_\varepsilon\in C_b^3(\mathbb R)\) である。

よって仮定より，固定した \(\varepsilon>0\) に対して \[ E[g_\varepsilon(U_n)] \to E[g_\varepsilon(U)]. \]

一方，\(g\) が Lipschitz なら \[ |g_\varepsilon(x)-g(x)| = \bigl|E[g(x+\varepsilon V)-g(x)]\bigr| \le \mathrm{Lip}(g)\,\varepsilon E|V|. \] したがって \[ |E[g(U_n)]-E[g_\varepsilon(U_n)]| \le \mathrm{Lip}(g)\,\varepsilon E|V|, \] および同様に \[ |E[g(U)]-E[g_\varepsilon(U)]| \le \mathrm{Lip}(g)\,\varepsilon E|V|. \] よって \[ \limsup_{n\to\infty} |E[g(U_n)]-E[g(U)]| \le 2\,\mathrm{Lip}(g)\,\varepsilon E|V|. \] \(\varepsilon\downarrow 0\) とすれば右辺は 0 に行く。したがって \[ E[g(U_n)]\to E[g(U)] \qquad \text{for every bounded Lipschitz } g. \] ゆえに \(U_n\overset{d}{\to} U\) が従う。\(\square\)

以上の二つの補題を合わせると，正規化された場合 \(s_n=1\) で \[ S_n \overset{d}{\to} N(0,1) \] が従う。一般の場合は \(X_{ni}/s_n\) に適用すれば \[ \frac{S_n}{s_n} \overset{d}{\to} N(0,1) \] が得られる。これで Lindeberg–Feller CLT の十分条件の証明が終わる。\(\square\)

i.i.d. の CLT は系としてすぐ出る

上の一般定理から，古典的な i.i.d. CLT はただちに従う。

系（古典的 CLT）
\(X_1,X_2,\dots\) を i.i.d. とし， \[ E[X_1]=\mu, \qquad \mathrm{Var}(X_1)=\sigma^2\in(0,\infty) \] とする。このとき \[ \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma} \overset{d}{\to} N(0,1). \]

証明
三角配列 \[ X_{ni}:=\frac{X_i-\mu}{\sigma\sqrt{n}}, \qquad i=1,\dots,n \] を考える。すると各行で独立，平均 0，しかも \[ \sum_{i=1}^n \mathrm{Var}(X_{ni}) = \sum_{i=1}^n \frac{\sigma^2}{\sigma^2 n} =1. \]

あとは Lindeberg 条件を確認すればよい。任意の \(\varepsilon>0\) に対して \[ \sum_{i=1}^n E\Bigl[X_{ni}^2 1\{|X_{ni}|>\varepsilon\}\Bigr] = \frac{1}{\sigma^2} E\Bigl[(X_1-\mu)^2 1\{|X_1-\mu|>\varepsilon\sigma\sqrt{n}\}\Bigr]. \] 右辺の指示関数は \(n\to\infty\) で 0 に下がり，かつ被積分関数は \[ \frac{(X_1-\mu)^2}{\sigma^2} \] で抑えられ，これは可積分である。したがって優収束定理より右辺は 0 に行く。

よって Lindeberg 条件が成り立ち，定理より \[ \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i-\mu) \overset{d}{\to} N(0,1) \] が従う。\(\square\)

この証明は，i.i.d. CLT の本質が

各項が十分小さい
大きすぎる項の寄与が消える
ガウス変数と 1 個ずつ入れ替えても全体はあまり変わらない

という点にあることを，かなりよく見せている。

Lindeberg 条件の意味：なぜ「1 人勝ち」がダメなのか

CLT の正規極限は，たくさんの小さな独立ショックが足し合わさるから出てくる。
逆に言えば，1 個の観測がほとんど全部を支配しているときには，正規分布は出ない。

この点を，三角配列で見ると非常にわかりやすい。

良い例：分散が薄く分散している配列

\(\xi_{ni}\) を i.i.d. の Rademacher 変数（\(P(\xi_{ni}=1)=P(\xi_{ni}=-1)=1/2\)）とし， \[ X_{ni}=\frac{\xi_{ni}}{\sqrt{n}},\qquad i=1,\dots,n \] とおく。このとき \[ \sum_{i=1}^n \mathrm{Var}(X_{ni}) = 1, \qquad \max_i \mathrm{Var}(X_{ni}) = \frac{1}{n}\to 0 \] であり，Lindeberg 条件も成り立つ。したがって \[ \sum_{i=1}^n X_{ni} = \frac{1}{\sqrt{n}}\sum_{i=1}^n \xi_{ni} \overset{d}{\to} N(0,1). \]

悪い例：1 個の観測が全部を支配する配列

今度は \[ X_{n1}=\xi_n, \qquad X_{ni}=0 \quad (i=2,\dots,n) \] とする。ただし \(\xi_n\) は Rademacher 変数である。すると \[ \sum_{i=1}^n \mathrm{Var}(X_{ni})=1 \] ではあるが，分散の 100% を \(X_{n1}\) が持っている。したがって Lindeberg 条件は失敗する。実際，任意の \(\varepsilon<1\) に対して \[ \sum_{i=1}^n E\bigl[X_{ni}^2 1\{|X_{ni}|>\varepsilon\}\bigr]=1. \]

このとき行和は \[ \sum_{i=1}^n X_{ni} = \xi_n \] であり，いつまで経っても \(\pm 1\) の二点分布のままで，正規分布には近づかない。

ここに Lindeberg 条件の本質がある。
正規極限には，多数の微小なショックが必要であって，1 個の大きなショックではダメなのである。

シミュレーション：Lindeberg が成り立つとき／壊れるとき

次の図では，

左：\(X_{ni}=\xi_{ni}/\sqrt{n}\)（Lindeberg 条件が成り立つ）
右：\(X_{n1}=\xi_n\), \(X_{ni}=0\)（1 個が全部を支配する）

という二つの配列の行和を比べている。どちらも全体分散は 1 だが，極限の形はまったく違う。

Lindeberg 条件が成り立つとき（左）は行和の経験分布関数が標準正規の分布関数に近づく。1 個の観測が全部を支配する場合（右）は，いつまで経っても正規分布にならない。

左では経験分布関数がかなりなめらかで，標準正規の分布関数に近づいている。
右では分布は \(\pm 1\) に質量を持つだけなので，標準正規とは全然違う。

この図は，Lindeberg 条件を「正規極限のためには1 個だけ大きいショックがあってはいけない」という言葉に翻訳したものだと思えばよい。

計量経済学的な読み替え

CLT は，計量経済学では次の形で使われることが多い。

\(Z_1,\dots,Z_n\) が i.i.d. で，ある実数値関数 \(g\) に対して \[ E[g(Z_i)] = 0, \qquad \mathrm{Var}(g(Z_i)) = \Omega < \infty \] とする。このとき \[ \sqrt{n}\,\bar g_n := \sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n g(Z_i)\right) \overset{d}{\to} N(0,\Omega). \]

これは，

モーメント条件の標本平均は \(n^{-1/2}\) オーダーで揺れる
その極限分布は正規である

ということを意味する。
OLS なら \(g(Z_i)=x_i u_i\)，GMM なら一般のモーメント条件 \(g(Z_i,\theta_0)\)，MLE なら score がこれに対応する。

つまり CLT は，計量経済学で現れるほとんどすべての「標準誤差」「漸近正規性」の出発点になっている。

今回は 1 次元だけを扱ったが，多変量版では \[ \sqrt{n}\,\bar g_n \overset{d}{\to} N(0,\Omega) \qquad (\Omega \text{ は分散共分散行列}) \] となり，これが実際の推定論にそのままつながる。

まとめ

今回の要点は次の 4 つである。

大数の法則は平均そのものの収束を述べるが，中心極限定理は平均の揺れの極限を述べる。
適切なスケールは \(\sqrt{n}\) であり，有限分散のもとでは \[ \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma} \overset{d}{\to} N(0,1) \] が成り立つ。
より一般には，三角配列に対する Lindeberg–Feller CLT が成り立ち，その条件は「大きすぎる 1 個の観測の寄与が消える」という意味を持つ。
証明の本質は，和を同じ分散を持つガウス和と比較し，1 個ずつ入れ替えながら Taylor 展開で誤差を押さえることにある。

次に進むときには，この CLT をもとに

Slutsky の定理
Delta method
multivariate CLT
t 統計量や Wald 統計量の漸近分布

へ進むのが自然である。計量経済学で本当に使うのは，そこから先である。