Lecture 7：因果推論のフレームワーク

潜在アウトカム・ATE/ATT・識別

この講義で押さえたいこと

因果推論では、回帰式を書けることと因果効果を識別できることを区別して考える。
潜在アウトカムは、処置があった世界となかった世界を同じ個体について並べるための記法である。
ATE と ATT は、どの集団に対する平均処置効果を知りたいのかを明示するためのパラメータである。
識別とは、見えない反実仮想を仮定によって観測可能な量に置き換えることである。

今回は、今後の Difference-in-Differences、固定効果モデル、操作変数法、RDD を読むための共通言語を作る。テクニックの名前よりも、何を知りたいのか、その反実仮想をどの仮定で埋めているのか、という順番を大事にする。

この lecture の流れ

まず、回帰係数を因果効果として読むときに何が問題になるかを確認する。
次に、潜在アウトカムを導入し、個体レベルの因果効果と観測アウトカムの関係を見る。
そのうえで、ATE と ATT を定義し、なぜ反実仮想が問題になるのかを整理する。
最後に、識別とは何か、回帰はその中で何をしているのかを確認する。
前回見た2つの論文をこのフレームワークで読み直し、どこまでが因果推論として強く、どこからが難しいのかを考える。

因果推論とは何を識別することなのか

ここまで見てきたように、重回帰を使うと

対数変数
二次項
交差項
ダミー変数
固定効果

などを通じて、さまざまな経済的関係を表現できる。

ただし、今まで散々見てきたように、回帰式を書けること と、因果効果がわかること は同じではない。

たとえばダミー変数D_iを用いて、

Y_i = \beta_0 + \beta_1 D_i + u_i

という式を書いて、D_i が 1 の人のほうが Y_i が高かったとしても、それだけでは

D_i が Y_i を変えた

とは言えない。

なぜなら、D_i=1 の人と D_i=0 の人では、もともと別の特徴を持っていて、それが結果のY_iに影響しているかもしれないからである。これはE[u_i\mid D_i] = 0という仮定をおかないと、本当に知りたいパラメータは識別できない、という話であった。

計量経済学において、因果推論とは基本的に回帰式で説明変数として出てくる興味のあるダミー変数にくっついているパラメータを識別することを指す。

このパラメータはもちろん、D_i = 0と比べてD_i = 1が平均的にどれくらい結果が大きいか、を表すパラメータである。

正味これだけの話なのだが、実はこの「パラメータ」をもうちょっと深ぼることができる。そしてもうちょっと深ぼると、なんでこれがわざわざ因果推論と呼ばれうるのかがわかる。

まずはこの問題をふかぼるための道具である潜在アウトカムを導入する。

潜在アウトカム

この記法で見たいこと

Y_i(1) と Y_i(0) は、「同じ個体が処置を受けた世界」と「受けなかった世界」を並べて考えるための記法である。実際には片方しか観測できないので、その欠けている側をどう埋めるかが因果推論の中心問題になる。

この考え方を厳密に書くために、潜在アウトカム を導入する。

各個体 i について、

Y_i(1)：個体 i が処置を受けたときのアウトカム
Y_i(0)：個体 i が処置を受けなかったときのアウトカム

を考える。

ここで「処置」とは、たとえば

政策の対象になること
補助金を受けること
新制度が導入されること
ある学校に進学すること

など、分析したい介入一般を表している。この処置が行われたときに1になるダミー変数がD_iである。

世界には同一の個体は一つしか存在しない。なので、なんらかの処置が実行された時、実際に観測されるのは、このうち片方だけである。

このように考えると、我々は常に一つの変数について観測できていないということになる。D_i = 0の iについてはY_i(0)が観測され、逆にD_i = 1の人iについてはY_i(0)が観測されていない。

このような欠損値があるがゆえに処置の効果が直接にはわからない、という考え方をする。これが潜在アウトカムの考え方である。

具体的に書く。処置変数を

D_i = \begin{cases} 1 & \text{if individual } i \text{ is treated} \\ 0 & \text{if individual } i \text{ is untreated} \end{cases}

と書くと、観測アウトカム Y_i は

Y_i = D_i Y_i(1) + (1-D_i)Y_i(0)

と表せる。

この式はとても重要である。
なぜなら、各個体について

処置を受けたなら Y_i(1) だけが観測され
処置を受けなかったなら Y_i(0) だけが観測される

ことを意味しているからである。

したがって、各個体についての因果効果

Y_i(1)-Y_i(0)

は定義できるが、同じ個体について両方を同時に観測することはできない。

これを因果推論の根本問題という。

因果推論で知りたいパラメータ

では、因果推論で知りたい量とは何だろうか。

もっとも基本的なのは、個体ごとの因果効果

Y_i(1)-Y_i(0)

である。
しかし、これは各個体について直接は観測できないので、通常はその平均を考える。

平均処置効果

母集団全体での平均処置効果は

ATE = E[Y_i(1)-Y_i(0)]

である。

これは、

ランダムに1人取り出したとき、その人を処置した場合としなかった場合で、平均してアウトカムがどれだけ変わるか

を表している。

処置群に対する平均処置効果

一方、実証研究ではしばしば

ATT = E[Y_i(1)-Y_i(0)\mid D_i=1]

を知りたい。

これは Average Treatment effect on the Treated の略で、

実際に処置を受けた人たちにとって、処置は平均してどれだけの効果を持ったか

を表している。

たとえば政策評価では、

政策対象となった地域
補助金を受けた企業
実際に制度変更の影響を受けた世代

に対する効果が知りたいことが多いので、ATT が重要になる。

なぜこれが難しいのか

ATT を書き下すと、

ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=1]

である。

ここで、第一項

E[Y_i(1)\mid D_i=1]

は観測できる。
なぜなら、処置群について実際に観測されるアウトカムがこれだからである。

しかし、第二項

E[Y_i(0)\mid D_i=1]

は観測できない。
これは

処置群が、もし処置を受けなかったならどうなっていたか

という反実仮想だからである。

ここが因果推論の核心で、要するにこれをどうにかしようということをみんな頑張っている。

なぜ単純な平均差ではだめなのか

処置群と非処置群の観測平均の差は

E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0]

である。

観測アウトカムの式を使うと、これは

E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=0]

と書ける。

一方で知りたいのは

ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=1]

であった。

両者の差を比べると、

E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0] = ATT + \Bigl( E[Y_i(0)\mid D_i=1] - E[Y_i(0)\mid D_i=0] \Bigr)

となる。

右端の

E[Y_i(0)\mid D_i=1] - E[Y_i(0)\mid D_i=0]

は、処置がなかったとしても両群に平均差がある部分 である。

つまり、単純な平均差は

本当の因果効果
もともとの群の違い

を両方含んでいる。

だから、単純な平均差をそのまま因果効果と呼ぶことはできない。

ここでいちばん大事な区別

識別とは、データと仮定から知りたいパラメータを一意に結びつけられることを指す。回帰係数が計算できること自体は、まだ因果効果が分かったことを意味しない。

識別とは何か

ここで「識別」という言葉をはっきりさせておこう。

因果推論で知りたいパラメータは、たとえば

ATT = E[Y_i(1)-Y_i(0)\mid D_i=1]

のような 潜在アウトカムで定義された量 である。

しかし、このままでは Y_i(0) の反実仮想が含まれているので、そのままでは観測データから計算できない。

そこで、何らかの仮定を使って、このパラメータを 観測可能な量だけで書き直す 必要がある。

これが因果推論の文脈で言われる識別である。

たとえば、もし

E[Y_i(0)\mid D_i=1] = E[Y_i(0)\mid D_i=0]

が成り立つなら、

ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=0]

となる。

さらに観測データでは

E[Y_i(1)\mid D_i=1] = E[Y_i\mid D_i=1]

および

E[Y_i(0)\mid D_i=0] = E[Y_i\mid D_i=0]

だから、

ATT = E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0]

と書ける。

このとき初めて、観測データの平均差が因果効果を表す。

つまり、識別とは

見えない反実仮想を、仮定を使って見える量に置き換えること

である。

そして、

E[Y_i(0)\mid D_i=1] = E[Y_i(0)\mid D_i=0]

これは

処置D_iが処置されない時の結果と平均的には関係がない

ということを意味している。このような状況をランダムアサインメントと呼ぶ。

お気づきの通り、これは我々が今まで実験と読んできた状況である。このような実験をRandomized Controlled Trial (RCT)と呼ぶ。

「RCTができるなら、回帰すればいい。」というこの講義の最初から言い続けてきたことがここでも表れている。

そして同時に、「実験ができない時は識別戦略を慎重に考えなくてはならない」という、これまた今まで言い続けてきたことがここでも成り立っている。

回帰は何をしているのか

この観点から見ると、回帰分析の役割もはっきりする。

回帰は、たとえば

Y_i = \beta_0 + \beta_1 D_i + X_i'\gamma + u_i

のような形で、処置変数 D_i と他の変数 X_i を同時に入れて推定する。

ここで X_i は年齢、教育、地域、性別などのコントロール変数である。

このとき \beta_1 を因果効果として読みたければ、

X_i を一定にしたとき、処置の有無は潜在アウトカムと独立である

というような仮定が必要になる。これを条件付き独立と呼ぶ。散々見てきた外生性の仮定である。

数式で書けば、たとえば

\{Y_i(1),Y_i(0)\}\perp D_i\mid X_i

である。

ただし、ここで一つ大事な条件がある。X_i をそろえて比較すると言うためには、その X_i の値を持つ人の中に、処置群と非処置群の両方がいなければならない。

つまり、関心のある X_i=x について、

0<P(D_i=1\mid X_i=x)<1

が必要になる。これを overlap、あるいは common support と呼ぶ。

もしある X_i=x の人が全員処置群なら、その x における非処置群のアウトカムは観測できない。逆に、全員非処置群なら、その x における処置群のアウトカムは観測できない。したがって、条件付き独立だけでなく、比較できる相手がデータ内に存在することも必要である。

条件付き独立と overlap

条件付き独立は「同じ X_i の中で比べれば処置の有無はランダムに見える」という仮定である。一方、overlap は「同じ X_i の中に、実際に処置群と非処置群の両方がいる」という条件である。前者は比較してよい理由、後者は比較できる相手がいることを保証している。

ここでさらに注意したいのは、この条件付き独立の書き方はかなり強いという点である。

もし

\{Y_i(1),Y_i(0)\}\perp D_i\mid X_i

が成り立ち、さらに十分な overlap があるなら、

E[Y_i(0)\mid D_i=1,X_i] = E[Y_i(0)\mid D_i=0,X_i]

だけでなく、

E[Y_i(1)\mid D_i=0,X_i] = E[Y_i(1)\mid D_i=1,X_i]

も言えてしまう。

つまり、この書き方だと、処置群に対する効果である ATT だけでなく、母集団全体に対する ATE まで識別できる方向に寄っている。

しかし、実証研究ではしばしば、そこまで強いことを言う必要はない。ATT を識別したいだけなら、必要なのは主に

E[Y_i(0)\mid D_i=1,X_i] = E[Y_i(0)\mid D_i=0,X_i]

である。

これは、

X_i をそろえれば、処置群が処置を受けなかった場合のアウトカムは、実際に処置を受けなかった人たちのアウトカムで近似できる

という仮定である。

一方、ATE に必要な

E[Y_i(1)\mid D_i=0,X_i] = E[Y_i(1)\mid D_i=1,X_i]

までは主張していない。ここを分けて書くと、あとで観察データの論文を読むときに、どこまでを識別しようとしているのかがかなり見えやすくなる。

回帰そのものが因果効果を自動的に生み出すわけではない。 回帰は、識別のための仮定のもとで因果パラメータを推定するための道具 である。

この意味で、

どんな回帰式を書くか
その係数を何として解釈するか
その解釈にどんな仮定が必要か

は必ずセットで考えなければならない。

前回の論文を因果推論の言葉で読み直す

ここまでで、因果推論を読むための最低限の言葉がそろった。

そこで、前回見た2つの論文をもう一度見直してみよう。

Bertrand and Mullainathan (2004): 名前をランダムに変えて callback の差を見る論文
Donohue and Levitt (2001): 中絶合法化とその後の犯罪減少の関係を見る論文

前回は、これらを「重回帰の部品が実証研究でどう使われるか」という観点から読んだ。

今回は同じ論文を、

何が処置なのか
何がアウトカムなのか
どの反実仮想が見えていないのか
その反実仮想をどんな仮定で埋めているのか

という観点から読み直す。

これをすると、同じ回帰式でも、どこが因果推論として強いのか、どこがまだ詰め切れていないのかが見えやすくなる。

Bertrand and Mullainathan (2004) を潜在アウトカムで読む

Bertrand and Mullainathan (2004) では、架空の履歴書を求人に送り、名前だけをランダムに変えて callback が来るかどうかを調べた。

最も単純化して、処置変数を

D_i = \begin{cases} 1 & \text{if resume } i \text{ has an African-American-sounding name} \\ 0 & \text{if resume } i \text{ has a White-sounding name} \end{cases}

と書く。

アウトカム Y_i は、履歴書 i が callback を受けたかどうかである。

このとき潜在アウトカムは、

Y_i(1)：履歴書 i に African-American-sounding name をつけたときの callback
Y_i(0)：同じ履歴書 i に White-sounding name をつけたときの callback

である。

知りたいのは、たとえば

E[Y_i(1)-Y_i(0)]

である。

これは、

同じ履歴書が、名前だけ違っていたら、callback 確率は平均してどれだけ変わるか

という問いである。

この論文の estimand は ATE か ATT か

この論文の基本的な estimand は、かなり素直に ATE と考えられる。

より正確には、

ATE_{\text{name}} = E[Y_i(1)-Y_i(0)]

である。

これは、

この実験で送られた履歴書・求人応募の母集団において、African-American-sounding name を付けたときと White-sounding name を付けたときで、callback 確率が平均してどれだけ変わるか

を表す。

ここで注意したいのは、これは「アメリカ労働市場全体における人種差別の ATE」ではないという点である。

この論文が直接測っているのは、あくまで

履歴書上の名前が発する人種的シグナルが、callback というアウトカムに与える平均効果

である。

つまり、estimand は

\text{name signal} \longrightarrow \text{callback}

の平均因果効果である。

一方で、これを ATT と呼ぶ必要はあまりない。

なぜなら、処置である名前は研究者によってランダムに割り当てられており、African-American-sounding name を付けられた履歴書が、何か特別に「処置を受けやすい」履歴書だったわけではないからである。

ランダム割当のもとでは、実験サンプルについて

E[Y_i(1)-Y_i(0)] = E[Y_i(1)-Y_i(0)\mid D_i=1] = E[Y_i(1)-Y_i(0)\mid D_i=0]

と考えやすい。

つまり、この論文では ATE と ATT の区別はそれほど大きな問題にならない。

Bertrand and Mullainathan の estimand

基本は、実験で送られた履歴書・求人応募に対する 名前シグナルの ATE である。名前がランダムに割り当てられているので、実験サンプル内では ATE と ATT は同じものとして読める。

ここで重要なのは、名前がランダムに割り当てられていることである。

つまり、

\{Y_i(1),Y_i(0)\} \perp D_i

と考えやすい。

この仮定が成り立つなら、

E[Y_i(1)-Y_i(0)] = E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0]

となる。

したがって、単純な平均差や、コントロール変数を入れた回帰の係数を、かなり素直に因果効果として読める。

この論文が因果推論として強い理由

この論文では、名前がランダムに割り当てられている。したがって、African-American-sounding name の履歴書と White-sounding name の履歴書は、平均的には名前以外の点で同じである。見えない反実仮想を、ランダム化によって比較可能な別の履歴書で置き換えている。

ただし、この論文にも解釈上の注意はある。

この論文が直接識別しているのは、

名前から想起される人種的シグナルが callback に与える効果

である。

それは非常に重要な労働市場差別の証拠だが、厳密には、

現実の応募者の人種そのものが、採用のすべての段階に与える効果

をそのまま識別しているわけではない。

たとえば、実際の面接、賃金交渉、採用後の昇進まで含めた労働市場全体の差別を測っているわけではない。

因果推論ではこのように、

どの処置の、どのアウトカムに対する効果を識別しているのか

をはっきり言う必要がある。

Donohue and Levitt (2001) を潜在アウトカムで読む

次に Donohue and Levitt (2001) を考える。

この論文は、1970年代の中絶合法化や中絶率の上昇が、その後の犯罪減少につながったのではないか、という仮説を調べている。

こちらは Bertrand and Mullainathan (2004) よりずっと難しい。

なぜなら、名前をランダムに割り当てる実験とは違って、

どの州・どの出生コホートが、どれだけ中絶合法化や中絶率の影響を受けたか

は完全にランダムではないからである。

実際の論文では、中絶率や中絶への曝露は連続的な変数として扱われ、年齢別の犯罪率も使われている。

ただしここでは、因果推論のフレームワークとの対応をはっきりさせるために、かなり単純化する。

具体的には、

各州 s、各出生コホート c について、その cohort が一定の犯罪年齢に達したときの犯罪率だけを見る

と考える。

たとえば、「各出生コホートが 18〜24 歳になったときの犯罪率」を見る、くらいにイメージすればよい。

この単純化のもとでは、観測単位は

(s,c)

である。

ここで、

s：州
c：出生コホート

である。

処置変数は、州 s の出生コホート c が中絶への曝露を強く受けたかどうかを表すダミーとして、

D_{sc} = \begin{cases} 1 & \text{if state } s \text{ and birth cohort } c \text{ has high abortion exposure} \\ 0 & \text{if state } s \text{ and birth cohort } c \text{ has low abortion exposure} \end{cases}

と書く。

アウトカムは

Y_{sc}

であり、これは「州 s の出生コホート c が一定の犯罪年齢に達したときの犯罪率」である。

潜在アウトカムで書くなら、

Y_{sc}(1)：州 s の出生コホート c が high exposure だったときの犯罪率
Y_{sc}(0)：同じ州 s の出生コホート c が low exposure だったときの犯罪率

を考えていることになる。

知りたいのは、

Y_{sc}(1)-Y_{sc}(0)

の平均である。

これは、

同じ州・同じ出生コホートが、もし中絶への曝露が高かった場合と低かった場合で、後の犯罪率がどう変わったか

という反実仮想である。

この論文の estimand は ATE か ATT か

この binary high/low の読み替えでは、論文が狙っている estimand は ATT 的な量 として読むのがわかりやすい。

つまり、

ATT = E[Y_{sc}(1)-Y_{sc}(0)\mid D_{sc}=1]

である。

これは、

実際に high exposure だった州・出生コホートにとって、もし low exposure だったなら、後の犯罪率はどうなっていたか

を問う量である。

ATT を分解すると、

ATT = E[Y_{sc}(1)\mid D_{sc}=1] - E[Y_{sc}(0)\mid D_{sc}=1]

である。

第一項

E[Y_{sc}(1)\mid D_{sc}=1]

は観測できる。

実際に high exposure だった州・出生コホートについて、後の犯罪率を見ればよいからである。

問題は第二項

E[Y_{sc}(0)\mid D_{sc}=1]

である。

これは、

high exposure だった州・出生コホートが、もし low exposure だったならどうなっていたか

という反実仮想なので、そのままでは観測できない。

Donohue and Levitt の estimand

ここでは講義用に、処置を high exposure / low exposure の2値に単純化している。この読み替えでは、推定対象は実際に high exposure だった州・出生コホートに対する ATT 的な効果である。実際の論文は連続的な中絶曝露の係数を推定しているが、反実仮想の穴埋めを理解するには、この binary 版が見やすい。

回帰式はこの ATT をどう穴埋めしているのか

では、観測できない

E[Y_{sc}(0)\mid D_{sc}=1]

をどう埋めるのか。

ここで使う考え方は、前に見た条件付き独立である。

州固定効果、出生コホート固定効果、その他のコントロール変数をまとめて

W_{sc}=(\alpha_s,\lambda_c,X_{sc})

と書こう。

ここで注意したいのは、識別仮定を強く書きすぎないことである。

たとえば、

\{Y_{sc}(1),Y_{sc}(0)\}\perp D_{sc}\mid W_{sc}

と書くこともできる。

これは、

州の固定的な違い、出生コホートごとの全国的な違い、観測可能なコントロール変数をそろえれば、high exposure か low exposure かは潜在アウトカムと独立である

という仮定である。

しかし、これはかなり強い仮定である。

この仮定が本当に成り立ち、さらに十分な overlap もあるなら、ATT だけでなく、ATE まで識別できる方向に寄ってしまう。

ここで読みたいのは、もっと控えめに、実際に high exposure だった州・出生コホートに対する ATT である。そのために必要なのは、主に次の片側の条件である。

E[Y_{sc}(0)\mid D_{sc}=1,W_{sc}] = E[Y_{sc}(0)\mid D_{sc}=0,W_{sc}]

これは、

W_{sc} をそろえれば、high exposure cohort が low exposure だった場合の犯罪率は、実際に low exposure だった cohort の犯罪率で近似できる

という仮定である。

一方、ATE に必要な

E[Y_{sc}(1)\mid D_{sc}=0,W_{sc}] = E[Y_{sc}(1)\mid D_{sc}=1,W_{sc}]

までは主張していない。

さらに、この比較をするには overlap も必要である。つまり、high exposure の州・出生コホートが存在するような W_{sc}=w について、比較相手になる low exposure の州・出生コホートも存在していなければならない。

たとえば、

P(D_{sc}=0\mid W_{sc}=w)>0 \quad \text{for } w \text{ such that } P(D_{sc}=1\mid W_{sc}=w)>0

である。

この片側の条件付き平均独立と overlap が成り立つなら、

D_{sc}=0 のグループでは Y_{sc}=Y_{sc}(0) が観測されるので、

E[Y_{sc}(0)\mid D_{sc}=0,W_{sc}] = E[Y_{sc}\mid D_{sc}=0,W_{sc}]

である。

したがって、見えない

E[Y_{sc}(0)\mid D_{sc}=1,W_{sc}]

を、観測できる

E[Y_{sc}\mid D_{sc}=0,W_{sc}]

で埋める、というのがこの回帰の考え方である。

この発想を線形回帰で書くと、

Y_{sc} = \alpha_s + \lambda_c + \beta D_{sc} + X_{sc}'\gamma + u_{sc}

となる。

ここで、

\alpha_s は州固定効果で、州ごとの固定的な違いを調整する
\lambda_c は出生コホート固定効果で、cohort ごとの全国的な違いを調整する
X_{sc} は観測可能なコントロール変数である
\beta は、それらを調整したあとに残る high exposure と low exposure の平均差である

と読む。

つまり、この回帰式は

同じような州、同じような出生コホート、同じような観測可能な条件のもとで、high exposure cohort と low exposure cohort を比べる

という比較を作っている。

その比較によって、

E[Y_{sc}(0)\mid D_{sc}=1]

を穴埋めしようとしている。

回帰式と ATT の対応

ATT の問題は、E[Y_{sc}(0)\mid D_{sc}=1] が見えないことだった。ATT に必要なのは、W_{sc} をそろえた low exposure cohort の観測結果で、この反実仮想を代用できるという片側の仮定である。回帰式の固定効果とコントロール変数は、その W_{sc} をそろえるために入っている。

この片側の仮定と overlap のもとでは、\beta を

ATT = E[Y_{sc}(1)-Y_{sc}(0)\mid D_{sc}=1]

に近いものとして読むことができる。

ただし、ここで大事なのは、\beta が自動的に ATT になるわけではないという点である。

それは、

E[Y_{sc}(0)\mid D_{sc}=1,W_{sc}] = E[Y_{sc}(0)\mid D_{sc}=0,W_{sc}]

という片側の条件付き平均独立と、必要な overlap を信じられるときに限られる。

この意味で、Donohue and Levitt (2001) も因果推論である。

単なる相関を見ているのではなく、

high exposure だった cohort が、もし low exposure だったならどうなっていたか

という反実仮想を考え、その反実仮想を回帰式で穴埋めしようとしているからである。

しかしこの「穴埋め」は怪しい

この論文では処置がランダムに割り当てられていない。そのため、固定効果やコントロール変数を入れたあとでも、中絶曝露の高い州・コホートと低い州・コホートが本当に比較可能なのかが重要な論点になる。

具体的には、次のような問いが残る。

中絶曝露の高い州やコホートは、もともと犯罪率の動き方が違っていたのではないか。
同じ時期に、警察、刑罰、経済状況、都市化、薬物市場、人口構成など、別の要因も変わっていたのではないか。
中絶率そのものは、政策だけでなく、州の文化、所得、医療アクセス、女性の教育や労働市場の変化とも関係しているのではないか。

前回見た Foote and Goetz による批判は、まさにこのあたりに関係している。

つまり、Donohue and Levitt (2001) は因果推論として読める。

しかし、Bertrand and Mullainathan (2004) のように、処置がランダム化されているわけではない。

だからこそ、

どの比較が反実仮想の代わりになっているのか
その比較は本当に信じられるのか

を厳しく問う必要がある。

2つの論文から見える因果推論をするときの注意点

この2つの論文を比べると、因果推論をしていると言っても、その実態にはかなり温度差があることがわかる。

Bertrand and Mullainathan (2004) では、処置である名前がランダムに割り当てられている。

したがって、識別の中心はかなり明確である。

estimand も、実験サンプルにおける名前シグナルの ATE としてかなり明確に書ける。

もちろん「名前の効果」と「人種そのものの効果」は区別する必要があるが、少なくとも callback というアウトカムに対する名前の効果は、かなり説得的に識別されている。

一方、Donohue and Levitt (2001) では、因果の問いは非常に大きく、社会的にも重要である。

しかし、その反実仮想を観測データの中でどう作るかはかなり難しい。

この講義用の binary 版で言えば、estimand は、実際に high exposure だった cohort に対する ATT 的な量である。

そして大事なのは、その ATT のうち見えない

E[Y_{sc}(0)\mid D_{sc}=1]

を、片側の条件付き平均独立と overlap のもとで、W_{sc} をそろえた low exposure cohort の観測結果によって穴埋めしている、という点である。

固定効果やコホート比較は強力な道具だが、それだけで全ての問題が消えるわけではない。

この差は、因果推論を学ぶうえでとても重要である。

因果推論のポイント

因果推論とは、回帰にそれっぽいコントロール変数を入れることではない。因果推論とは、知りたい反実仮想を定義し、それを観測データの中のどの比較で置き換えるのかを説明することである。その説明がどれだけ信じられるかが、実証研究の勝負どころになる。

この問題意識を持つと、次回以降に学ぶ DiD、固定効果モデル、操作変数法、RDD がなぜ必要なのかが見えやすくなる。

どの方法も、見えない反実仮想を作るための作戦である。

それぞれの方法を理解する上で、

何を比較しているのか
どの反実仮想を埋めようとしているのか
どの仮定がないと因果効果として読めないのか

などをチェックしよう。この講義で身につけたいのは、まさにこのチェックができるようになることである。具体的な推定方法などはそんなに大事じゃない。

まとめ

このセクションのポイントは次の通りである。

因果推論で知りたいのは、処置があった世界となかった世界の差である
その差は潜在アウトカム Y_i(1),\;Y_i(0) を使って書ける
しかし各個体について両方を同時に観測することはできない
そこで ATE,\quad ATT のような平均因果効果を定義する
さらに、見えない反実仮想を観測可能な量で書けるようにすることが識別である
回帰は、その識別仮定のもとでパラメータを推定するための道具である
前回の論文も、処置・アウトカム・estimand・反実仮想・識別仮定の言葉で読み直すと、因果推論としての強さと弱さが見えてくる