Lecture 6:重回帰の応用と潜在アウトカム
関数形・ダミー変数・固定効果・因果推論の導入
- 重回帰は変数を増やす道具というより、関数形を工夫して経済関係を表現する道具である。
- ダミー変数・交差項・固定効果は、「何を比較したいのか」を式に落とすための基本部品である。
- 因果推論では、回帰式を書けることと因果効果を識別できることを区別して考える必要がある。
今回は、重回帰の応用的な書き方をまとめて整理したあとで、後半で潜在アウトカムと識別の考え方に入る。前半は「どう式を書くか」、後半は「その係数を因果効果として読めるのはいつか」という流れで読むと理解しやすい。
- まず、対数・二次項・交差項・ダミー変数・固定効果など、重回帰の書き方を整理する。
- 次に、重回帰だけでもかなり多くの実証研究が書けることを具体例で確認する。
- 最後に、潜在アウトカムと識別の考え方を導入して、因果推論の入口をつかむ。
重回帰の応用
ここまでは、重回帰が「他の変数を一定にした上での関係」を見るための道具であること、そして欠落変数バイアスの考え方を学んだ。 このセクションでは、重回帰を使うと実際にどのような分析ができるのかを見ていく。
- 対数変数の時の係数の解釈
- 二次関数
- 交差項
- 多項式近似
- ダミー変数
- カテゴリー変数
- 個別の定数項を入れる:固定効果モデル
などを今回は見る。
重回帰の強みは、説明変数を増やせることそのものではない。
本当に重要なのは、変数の入れ方を工夫することで、さまざまな経済的関係を表現できることである。
さらに、因果推論の基本的な考え方とそのための基本モデルである潜在変数モデルについても紹介する。計量経済学で因果推論と言った時には、ほぼ必ずその分析手法はなんらかの重回帰モデルでの分析である。
因果推論という営みがどのようなパラメータを識別する営みなのかを紹介し、単なる回帰分析がなぜ因果推論なんていうかっこいい名前を与えられているのかについて理解していく。
1. 対数変数の時の係数の解釈
実証分析では、変数をそのまま使うのではなく、対数をとってから回帰に入れることが多い。 これは、金額・売上・賃金・人口のように、値のスケールが大きく、しかも「差」より「割合」で考えた方が自然な変数で特によく使われる。
対数を使うときは、どの変数に対数をとったかによって係数の解釈が変わる。
1.1 被説明変数だけ対数をとる場合
たとえば
\log y_i = \beta_0 + \beta_1 x_i + u_i
というモデルを考える。
このとき、x_i が1単位増えると、y_i はおよそ 100\beta_1 パーセント変化する。
つまり、\beta_1 = 0.03 なら、x が1増えると y はおよそ3%増える、と読む。
この形は、たとえば
- 教育年数が1年増えると賃金は何%変わるか
- 店舗面積が1単位増えると売上は何%変わるか
のような問いで便利である。
1.2 説明変数だけ対数をとる場合
次に
y_i = \beta_0 + \beta_1 \log x_i + u_i
を考える。
このとき、x_i が1%増えると、y_i はおよそ \beta_1/100 だけ変化する。
つまり、\beta_1 = 2 なら、x が1%増えると y は約0.02単位増える。
これは、説明変数の変化を「割合」で考えたいが、被説明変数は水準で解釈したいときに便利である。
1.3 両方とも対数をとる場合
さらに
\log y_i = \beta_0 + \beta_1 \log x_i + u_i
という形もよく使う。 これは log-log モデル と呼ばれる。
このとき \beta_1 は、x が1%増えたときに y が何%変化するかを表す。 つまり、\beta_1 は弾力性である。
たとえば \beta_1 = 0.8 なら、x が1%増えると y は0.8%増える。
これは経済学ではとても重要で、需要関数や生産関数などで頻繁に使われる。
1.4 対数を使うときの注意
対数は便利だが、0以下の値にはとれない。 したがって、変数に0が多い場合や負の値をとる場合には、そのままでは使えない。
また、対数を使うと係数の解釈が水準ではなく割合になるので、何が何%変わるのかを常に意識して読む必要がある。
2. 二次関数
単回帰や重回帰というと「直線」を当てはめるイメージが強い。 しかし、説明変数を工夫すれば、曲線的な関係も表現できる。
最も基本的なのが二次関数である。
y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + u_i
このモデルでは、x と y の関係は放物線になる。
2.1 二次項を入れる意味
二次項を入れると、x の効果は一定ではなく、x の値によって変わる。
x の限界効果は
\frac{\partial y_i}{\partial x_i} = \beta_1 + 2\beta_2 x_i
で与えられる。
つまり、x が小さいときと大きいときで、x の効果は異なる。
2.2 典型的な解釈
- \beta_2 < 0 なら、上に凸ではなく逆U字型になる
- \beta_2 > 0 なら、U字型になる
たとえば、
- 勉強時間とテスト成績
- 年齢と賃金
- 広告費と売上
などでは、最初は増加するが、どこかで伸びが鈍る、あるいは逆に下がる、という関係を考えたくなることがある。 そのようなときに二次項が役に立つ。
2.3 頂点の解釈
二次関数の頂点は
x^\ast = -\frac{\beta_1}{2\beta_2}
で与えられる。 これにより、「どの水準で最大になるか」「どこを境に増加から減少に変わるか」を計算できる。
3. 交差項
重回帰の大きな強みの一つは、ある変数の効果が別の変数に依存することを表現できる点である。 そのために使うのが交差項である。
たとえば
y_i = \beta_0 + \beta_1 x_i + \beta_2 z_i + \beta_3 (x_i z_i) + u_i
を考える。
ここで x_i z_i が交差項である。
3.1 交差項の意味
このモデルでは、x の効果は
\frac{\partial y_i}{\partial x_i} = \beta_1 + \beta_3 z_i
となる。
つまり、x の効果は z の値によって変わる。 逆に、z の効果も x の値によって変わる。
3.2 ダミー変数との交差項
特によく使うのは、ダミー変数(後述するが、0か1の値を取る変数)との交差項である。
たとえば d_i を男女ダミーとして
y_i = \beta_0 + \beta_1 x_i + \beta_2 d_i + \beta_3 (x_i d_i) + u_i
を考える。
このとき
- d_i = 0 のグループでは傾きは \beta_1
- d_i = 1 のグループでは傾きは \beta_1 + \beta_3
になる。
つまり、2つのグループで傾きが異なることを表現している。
3.3 切片も傾きも違う
上の式では
- \beta_2 が切片の差
- \beta_3 が傾きの差
を表している。
したがって、交差項を使うと「平均的に違う」だけでなく、「説明変数への反応の仕方が違う」という異質性まで捉えることができる。
4. 多項式近似
二次関数は曲線を表現する最も簡単な方法だが、それでも十分でないこともある。 そのようなときは、三次項、四次項などを追加して、より柔軟な形を作ることができる。
たとえば
y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \beta_3 x_i^3 + u_i
のようなモデルである。
より一般には
y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \cdots + \beta_K x_i^K + u_i
という形を考える。 これを多項式近似という。
4.1 多項式近似の発想
「本当の関係の形はよくわからないが、直線ではなさそうだ」というとき、多項式を使うとかなり柔軟に曲線を近似できる。
実際、滑らかな関数の多くは、ある範囲では多項式でかなりよく近似できる。
4.2 注意点
ただし、次数を高くしすぎると問題もある。
- サンプル内で不自然にうねうねした形になる
- 端の方で急激に曲がる
- 係数の解釈が難しくなる
- 多重共線性が強くなりやすい
したがって、柔軟性が上がる一方で、解釈や安定性は下がる。 実際の分析では、図を見ながら二次や三次くらいまでに抑えることも多い。
5. ダミー変数
ダミー変数とは、ある属性を0と1で表した変数である。 たとえば
- 女性なら1、男性なら0
- 都市部なら1、地方なら0
- 政策実施後なら1、実施前なら0
といった変数である。
5.1 ダミー変数の係数の意味
モデル
y_i = \beta_0 + \beta_1 d_i + u_i
を考える。
ここで d_i がダミー変数なら、
- d_i = 0 のときの平均は \beta_0
- d_i = 1 のときの平均は \beta_0 + \beta_1
となる。
したがって、\beta_1 は2つのグループの平均の差を表す。
5.2 他の変数をコントロールした上での差
重回帰の中でダミー変数を使うと、その係数は
他の変数を一定にした上での平均的な差
として解釈できる。
たとえば
y_i = \beta_0 + \beta_1 \text{educ}_i + \beta_2 \text{female}_i + u_i
なら、\beta_2 は教育年数を一定にした上での男女差を表す。
6. カテゴリー変数
現実には、属性が2種類ではなく、3種類以上あることも多い。 たとえば
- 学年:1年、2年、3年、4年
- 地域:東京、大阪、福岡、その他
- 学部:経済、法、工、文
のような変数である。 このような変数をカテゴリー変数という。
6.1 カテゴリー変数はダミーに分解する
カテゴリーが G 個あるときは、通常 G-1 個のダミー変数を作って回帰に入れる。
たとえば学部が
- 経済
- 法
- 工
の3種類なら、
- 法ダミー
- 工ダミー
の2つを入れて、「経済」を基準カテゴリにする。
するとモデルは
y_i = \beta_0 + \beta_1 D_{i,\text{law}} + \beta_2 D_{i,\text{engineering}} + u_i
のようになる。
このとき
- \beta_0 は基準カテゴリ(経済)の平均
- \beta_1 は法と経済の差
- \beta_2 は工と経済の差
を表す。
6.2 なぜ全部入れてはいけないのか
3種類のカテゴリについて3つすべてのダミーを入れると、必ず
D_{i,\text{econ}} + D_{i,\text{law}} + D_{i,\text{engineering}} = 1
が成り立つ。 さらに定数項も入っていると、完全な線形関係が生じてしまう。
そのため、1つは基準カテゴリとして落とす必要がある。 これを忘れると、いわゆる dummy variable trap に陥る。
6.3 基準カテゴリの選び方
基準カテゴリはどれを選んでもよい。 ただし、解釈しやすいグループを基準にすると便利である。
たとえば
- 政策前を基準にする
- 男性を基準にする
- 首都圏以外を基準にする
などである。
基準を変えると係数の見え方は変わるが、モデルが表している内容そのものは変わらない。
7. 個別の定数項を入れる:固定効果モデル
ここまで見てきたダミー変数の考え方を極端に押し進めると、観測単位ごとに定数項を持たせるという発想にたどり着く。 これが固定効果モデルである。
たとえば個人 i を時点 t で観測したパネルデータで
y_{it} = \alpha_i + \beta x_{it} + u_{it}
というモデルを考える。
ここで \alpha_i は個人ごとの定数項であり、固定効果と呼ばれる。
7.1 固定効果の意味
\alpha_i は、その個人に固有で、時間を通じて変わらない要因を表している。
たとえば個人データなら
- 生まれつきの能力
- 家庭環境
- 性格
- 長期的な志向
のような、観測しにくいがその人に固有の特徴が入っていると考えられる。
企業データなら
- 企業文化
- ブランド力
- 経営方針
学校データなら
- 学校の伝統
- 立地
- 教育方針
などが含まれるかもしれない。
7.2 固定効果モデルで何ができるか
固定効果モデルの重要な点は、こうした時間を通じて変わらない観測されない要因を吸収できることである。
その結果、\beta は
同じ個人の中で x が変化したときに y がどう変わるか
に近い情報から識別される。
つまり、比較の軸が「人と人の比較」から「同じ人の中での変化の比較」に移る。
7.3 ダミー変数として見る固定効果
固定効果モデルは、実際には「個人ダミーを全部入れた回帰」と考えることができる。
たとえば個人が100人いれば、99個の個人ダミーを入れるのと同じ発想である。 したがって、固定効果モデルはダミー変数の延長線上にある。
7.4 年固定効果
個人固定効果と並んでよく使うのが年固定効果である。
y_{it} = \alpha_i + \lambda_t + \beta x_{it} + u_{it}
ここで \lambda_t は各年に共通するショックを吸収する。 たとえば景気、制度変更、物価、全国的なトレンドなどである。
このモデルでは、
- \alpha_i が個人固有の不変要因
- \lambda_t が時点共通の要因
を吸収する。
7.5 固定効果モデルの限界
固定効果モデルは強力だが万能ではない。
吸収できるのは、時間を通じて変わらない要因だけである。 時間とともに変わる観測されない要因が x_{it} と相関していれば、なおバイアスは残りうる。
また、時間を通じて変わらない変数は、個人固定効果と完全に重なってしまうため、その係数は識別できない。
たとえば個人固定効果を入れたモデルでは、性別のように各個人について不変な変数の係数は推定できない。
8. まとめ
このセクションで見たように、重回帰を使うと
- 対数を通じて割合の関係を扱える
- 二次項や多項式で曲線的な関係を表現できる
- 交差項で効果の異質性を表現できる
- ダミー変数やカテゴリー変数でグループ間の差を扱える
- 固定効果モデルで観測されない不変要因を吸収できる
ようになる。
実際の実証分析では、これらを単独で使うだけでなく、組み合わせて使うことが多い。 たとえば
- 対数賃金を被説明変数にし
- 教育年数とその二乗を入れ
- 性別ダミーとの交差項を入れ
- 個人固定効果と年固定効果を加える
といった形である。
したがって、重回帰を学ぶときには「式を機械的に推定する」のではなく、 どのような関係を表現したいのかに応じて、どの変数をどう入れるべきかを考えることが大切である。
ここからは、前半で見た ダミー変数・交差項・固定効果 が実際の論文の中でどう使われるのかを見る。式の形そのものよりも、「どの比較をしているのか」を意識しながら読むのがポイントである。
重回帰だけでも面白い分析はできる
Bertrand and Mullainathan (2004): Are Emily and Greg More Employable than Lakisha and Jamal?
Bertrand and Mullainathan (2004) は、労働市場における人種差別を、実際の求人応募を使ったフィールド実験で測定した非常に有名な研究である。著者たちはボストンとシカゴの求人広告に対して架空の履歴書を送り、応募者の名前だけで人種が想起されるように操作した。たとえば Emily や Greg のような White-sounding names と、Lakisha や Jamal のような African-American-sounding names を用いた。さらに、履歴書の質もランダムに変えて、名前による差だけでなく、高品質な履歴書がどれだけ報われるかが人種で違うかどうかも調べた。全体では 1,300 を超える求人広告に応募し、5,000 通近い履歴書が送られた。 この研究の重要な点は、かなり強い主張をしているにもかかわらず、分析の中心にあるのがダミー変数、交差項、コントロール変数を含む比較的基本的な重回帰であることである。
実験の設定
各求人広告に対して、著者たちは通常4通の履歴書を送った。そのうち2通は相対的に高品質、2通は相対的に低品質であり、さらに高品質1通・低品質1通には White-sounding name を、残りの高品質1通・低品質1通には African-American-sounding name を割り当てた。高品質履歴書には、やや多い職歴、職歴の穴の少なさ、メールアドレス、資格、語学スキル、受賞歴などが加えられていた。つまり、名前も履歴書の質もランダムに割り当てられている。
各履歴書 i について、結果変数を
Callback_i = \begin{cases} 1 & \text{企業から面接などの連絡が来たとき} \\ 0 & \text{それ以外} \end{cases}
と定義する。
最も単純な回帰
まず、名前だけで callback の確率が違うかを見るために、次の回帰を考える。
Callback_i = \beta_0 + \beta_1 BlackName_i + u_i
ここで、
- Callback_i は履歴書 i が callback を受けたかどうか
- BlackName_i は African-American-sounding name なら1、White-sounding name なら0
である。
このとき、
- \beta_0 は White-sounding name の応募者の平均 callback 率
- \beta_1 は African-American-sounding name であることによる callback 率の差
を表す。
この論文の主結果は、White-sounding names の方が African-American-sounding names より 50% 多く callback を受けたというものである。NBER の要約では、White names の応募者は約10通に1回、African-American names の応募者は約15通に1回 callback を得たと説明されている。
名前はランダムに割り当てられているので、平均的には他の特徴は同じであり、\beta_1 の差は名前の操作によって生じた差と解釈できる。
コントロール変数を入れた重回帰
実際には、職種、都市、求人の要件などによって callback 率は変わる。そこで、次のような重回帰を考える。
Callback_i = \beta_0 + \beta_1 BlackName_i + X_i'\gamma + u_i
ここで X_i はコントロール変数のベクトルであり、たとえば
- 都市ダミー
- 職種ダミー
- 求人票に書かれた要件
- 応募者の性別ダミー
などを含む。
この式における \beta_1 は、都市や職種などを一定にした上で、African-American-sounding name の履歴書がどれだけ callback を受けにくいかを表す。論文中では、履歴書の特徴から予測 callback を作る probit 回帰や、都市ダミー・職種ダミー・求人要件ダミーを含む仕様が使われている。
履歴書の質を入れた回帰
次に、履歴書の質そのものを説明変数に加える。
Callback_i = \beta_0 + \beta_1 BlackName_i + \beta_2 HighQuality_i + u_i
ここで HighQuality_i は高品質履歴書なら1、低品質履歴書なら0である。
このとき、
- \beta_2 は White-sounding name の応募者にとって、高品質履歴書の平均的な上乗せ効果
- \beta_1 は low quality を基準にしたときの名前差
として読める。
原論文では、高品質履歴書の操作は実際に効いており、White names の応募者では高品質履歴書の callback 率は低品質履歴書より高かった。主観的 quality 分類では、White names の callback 率は low quality で 8.50%、high quality で 10.79% だった。一方、African-American names では 6.19% と 6.70% で、差はかなり小さかった。
交差項を入れた回帰
この論文の核心は、高品質履歴書のリターンが人種で違うかどうかを調べる点にある。そのための回帰式は次のように書ける。
Callback_i = \beta_0 + \beta_1 BlackName_i + \beta_2 HighQuality_i + \beta_3 (BlackName_i \times HighQuality_i) + X_i'\gamma + u_i
この式の係数の意味は次の通りである。
- \beta_0 は White name かつ low quality の応募者の平均 callback 率
- \beta_1 は low quality のときの、Black name と White name の差
- \beta_2 は White name の応募者における、高品質履歴書の効果
- \beta_3 はその高品質履歴書の効果が Black name でどれだけ変わるか
したがって、
- White name の応募者における高品質履歴書の効果は \beta_2
- Black name の応募者における高品質履歴書の効果は \beta_2 + \beta_3
となる。
もし \beta_3 < 0 なら、高品質履歴書の効果は Black name の応募者の方が小さいことを意味する。
原論文では、White names では高品質履歴書による callback 上昇が比較的大きい一方、African-American names ではその上昇がずっと小さいと報告されている。要約でも、White applicants with higher quality resumes receive nearly 30 percent more callbacks than White applicants with lower quality resumes, while the effect is smaller for African Americans とされている。
回帰結果の読み方
この論文の結果は、回帰の言葉でまとめると次の3点になる。
第一に、BlackName_i の係数は負であり、African-American-sounding name の履歴書は callback を受けにくい。これは、名前だけで企業の反応が変わることを意味する。
第二に、HighQuality_i の係数は正であり、良い履歴書ほど callback を受けやすい。
第三に、BlackName_i \times HighQuality_i の係数は負の方向を示し、良い履歴書のリターンが African-American-sounding name の応募者では小さいことが示唆される。つまり、単に平均差があるだけでなく、observable credentials の報われ方そのものが違う。
まとめ
Bertrand and Mullainathan (2004) は、名前だけで callback が変わるのか、そして良い履歴書を作ることの見返りが名前によって違うのかを、ダミー変数と交差項を入れた重回帰で調べた論文である。
この論文では、
- ダミー変数によってグループ差を表現し
- コントロール変数によって他の要因を一定にし
- 交差項によって効果の異質性を表現している
この意味で、重回帰は単に説明変数をたくさん入れる道具ではなく、グループ差や効果の異質性を明示的にモデル化するための道具であることがよくわかる。
Donohue and Levitt (2001): The Impact of Legalized Abortion on Crime
Donohue and Levitt (2001) は、1970年代の中絶合法化が、約18年後以降の犯罪減少につながったのではないかという仮説を提示した非常に有名な論文である。論文の中心的な主張は、合法化によって「望まれない出生」が減り、その結果として、後に犯罪に巻き込まれやすい環境で育つ子どもの数も減ったため、1990年代の犯罪減少の一部を説明できるのではないか、というものである。原論文の要約では、犯罪は中絶合法化からおよそ18年後に下がり始め、1970年に先行して合法化した州では他州より早く犯罪減少が起き、1970年代・1980年代の中絶率が高かった州ほど1990年代の犯罪減少が大きかった、と述べられている。
この論文の面白いところは、かなり大きな社会的主張をしているにもかかわらず、分析の形そのものは 州ダミー、年ダミー、対数変数、そして cohort exposure を使った重回帰 として理解できることである。
問題意識
アメリカでは1990年代に犯罪率が大きく低下した。 この低下を説明する候補としては、警察、景気、刑務所収容、人口年齢構成、麻薬市場の変化などさまざまなものが考えられる。Donohue and Levitt (2001) は、その中に 中絶合法化から時間差をおいて現れる cohort の質の変化 という説明を加えた。
この仮説の時間的な直感はかなり単純である。 もし 1973 年の Roe v. Wade 前後で出生コホートの構成が変わったなら、その影響はすぐには犯罪統計に現れない。犯罪の多くは若年期から若年成人期に集中するので、影響が観察されるのは十数年後になるはずである。原論文も、犯罪減少が合法化の約18年後に現れる点を重要な事実として挙げている。
基本的な回帰の考え方
もっとも粗い発想は、州 s、年 t の犯罪率を、その州の過去の中絶率で説明することである。たとえば
\log Crime_{st} = \alpha_s + \lambda_t + \beta AbortionRate_{s,t-\ell} + X_{st}'\gamma + u_{st}
という形である。
ここで、
- Crime_{st} は州 s・年 t の犯罪率
- \alpha_s は州固定効果
- \lambda_t は年固定効果
- AbortionRate_{s,t-\ell} は \ell 年前の中絶率
- X_{st} はその他のコントロール変数
である。
この式で \alpha_s は州ごとの変わらない特徴を吸収し、\lambda_t は全国共通の年ショックを吸収する。したがって \beta は、同じ州の中で、他州や全国トレンドを差し引いた上で、中絶率の高かった cohort が後により低い犯罪率と結びつくかを表す。
ただし、実際の論文の重要な仕様は、単純なラグ付き州年回帰というより、年齢コホートごとの「中絶への曝露」を明示的に使うところにある。
コホートを使った発想
論文の中心にある考え方は、ある年に観察される犯罪者集団は、異なる出生年のコホートから構成されているという点である。たとえば 1995 年の 18 歳は 1977 年生まれ、20 歳は 1975 年生まれ、というように、各年齢集団は異なる時点の中絶環境にさらされている。
そこで、州 s、年 t、年齢 a の犯罪率について、
\log Crime_{s t a} = \alpha_s + \lambda_t + \eta_a + \beta Exposure_{s,t-a} + X_{sta}'\gamma + u_{sta}
のような式を考える。
ここで、
- Crime_{sta} は州 s、年 t、年齢 a の犯罪率
- \eta_a は年齢固定効果
- Exposure_{s,t-a} は、その年齢集団が胎児期にいた年の中絶率、あるいはそれに基づく曝露指標
である。
この式の \beta は、中絶率の高い出生コホートほど、後に犯罪率が低いかを表す。
Foote and Goetz (2008) が「著者たちの concluding regressions は、同じ州・同じ年の中で異なる年齢コホートを比較している」と要約していることからも、議論の核心がこの cohort-based specification にあったことがわかる。
固定効果の役割
この論文では固定効果が非常に重要である。 州固定効果 \alpha_s は、州ごとの恒常的な差、たとえば都市化、歴史的な犯罪水準、法制度、文化などを吸収する。年固定効果 \lambda_t は、全国共通の景気、全国的な policing の変化、マクロなトレンドなどを吸収する。年齢固定効果 \eta_a は、若年層ほど犯罪を犯しやすいという一般的な年齢プロファイルを吸収する。
したがって、この論文の識別は
- 州ごとの固定的な違い
- 全国共通の年ショック
- 年齢による一般的な犯罪傾向
を取り除いたあとで、同じ州・同じ年の中でも、どの出生コホートがより高い中絶環境にさらされていたかという差に依存している。
係数の解釈
被説明変数が対数犯罪率であれば、\beta は半弾力性として解釈できる。 たとえば \beta < 0 なら、中絶率が高かった出生コホートほど、後に観察される犯罪率が低いことを意味する。
したがって、この論文の推定結果は、
- 中絶合法化のタイミング
- 州ごとの中絶率の違い
- コホートの年齢構成
を利用して、中絶への曝露が高いコホートは犯罪参加が少ないという関係を示そうとしている。
原論文の主張
原論文は、合法化の約18年後から犯罪が下がり始めたこと、1970年に先行合法化した州でより早く犯罪低下が起きたこと、そして中絶率が高かった州ほどその後の犯罪減少が大きかったことを主要な証拠として提示した。
このため、Donohue and Levitt (2001) はしばしば、州固定効果・年固定効果・コホート比較を組み合わせた重回帰で、大きな社会現象を説明しにいった論文として読まれる。
その後の論争
この論文は非常に有名になった一方で、すぐに強い批判も受けた。 とくに重要なのが Foote and Goetz によるコメントである。彼らは、Donohue and Levitt の concluding regressions には coding mistake があり、さらに犯罪変数を totals ではなく per capita で扱う方が適切だと主張した。そのうえで、これらを修正すると結果はかなり弱くなると論じた。これは 2008 年の QJE comment の要約でも明記されている。
批判のポイントを式のレベルで言えば、問題は「どの variation を使って \beta を識別しているのか」が本当に妥当か、ということである。 州×年の中で cohort 間の差を見る仕様では、人口規模や年齢構成の扱いが少し変わるだけで結果がかなり動く可能性がある。Foote and Goetz はまさにそこを突いた。
これに対して Donohue and Levitt は、その後の応答やアップデートで、元論文の一部には誤りがあったことを認めつつも、別の仕様や追加データを使っても中絶と犯罪の負の関係はなお見られると主張した。2019年の更新版では、2001年論文は「今後20年について強い out-of-sample prediction を置いた」と振り返ったうえで、その後のデータも broadly consistent だと論じている。
したがって、この論争の流れは次のようにまとめられる。
- 2001年:Donohue and Levitt が、中絶合法化は1990年代の犯罪減少にかなり寄与したと主張した。
- 2005〜2008年:Foote and Goetz が coding mistake と per-capita specification の問題を指摘し、主要結果はかなり弱くなると批判した。
- その後:Donohue and Levitt は修正後も仮説はなお支持されると主張し、2019年の更新版でも長期データは元の見方と整合的だと述べた。 ## この論文が示していること
まとめ
Donohue and Levitt (2001) の価値は、結論に論争があるとしても、重回帰と固定効果を使って、時間差を伴う社会現象をどう分析するかを非常に鮮やかに示した点にある。
この論文では、
- 対数変数 によって犯罪率の変化を扱い
- 州ダミー・年ダミー・年齢ダミー によって大きな交絡要因を吸収し
- コホート曝露変数 によって、ある政策の影響が後になって現れる構造をモデル化している
同時に、この論文をめぐる論争は、重回帰で大きな主張をするときには
- 仕様のわずかな違い
- 変数の定義
- コーディング
- per-capita で測るか total で測るか
が結論を大きく左右しうることも示している。
後半では、「回帰式が書けること」と「その係数を因果効果と読めること」は別問題だ、という点をはっきり区別する。ここが今後の DiD・IV・RDD につながる出発点である。
因果推論とは何を識別することなのか
ここまで見てきたように、重回帰を使うと
- 対数変数
- 二次項
- 交差項
- ダミー変数
- 固定効果
などを通じて、さまざまな経済的関係を表現できる。
ただし、今まで散々見てきたように、回帰式を書けること と、因果効果がわかること は同じではない。
たとえばダミー変数D_iを用いて、
Y_i = \beta_0 + \beta_1 D_i + u_i
という式を書いて、D_i が 1 の人のほうが Y_i が高かったとしても、それだけでは
D_i が Y_i を変えた
とは言えない。
なぜなら、D_i=1 の人と D_i=0 の人では、もともと別の特徴を持っていて、それが結果のY_iに影響しているかもしれないからである。これはE[u_i\mid D_i] = 0という仮定をおかないと、本当に知りたいパラメータは識別できない、という話であった。
計量経済学において、因果推論とは基本的に回帰式で説明変数として出てくる興味のあるダミー変数にくっついているパラメータを識別することを指す。
このパラメータはもちろん、D_i = 0と比べてD_i = 1が平均的にどれくらい結果が大きいか、を表すパラメータである。
正味これだけの話なのだが、実はこの「パラメータ」をもうちょっと深ぼることができる。そしてもうちょっと深ぼると、なんでこれがわざわざ因果推論と呼ばれうるのかがわかる。
まずはこの問題をふかぼるための道具である潜在アウトカムを導入する。
潜在アウトカム
Y_i(1) と Y_i(0) は、「同じ個体が処置を受けた世界」と「受けなかった世界」を並べて考えるための記法である。実際には片方しか観測できないので、その欠けている側をどう埋めるかが因果推論の中心問題になる。
この考え方を厳密に書くために、潜在アウトカム を導入する。
各個体 i について、
- Y_i(1):個体 i が処置を受けたときのアウトカム
- Y_i(0):個体 i が処置を受けなかったときのアウトカム
を考える。
ここで「処置」とは、たとえば
- 政策の対象になること
- 補助金を受けること
- 新制度が導入されること
- ある学校に進学すること
など、分析したい介入一般を表している。この処置が行われたときに1になるダミー変数がD_iである。
世界には同一の個体は一つしか存在しない。なので、なんらかの処置が実行された時、実際に観測されるのは、このうち片方だけである。
このように考えると、我々は常に一つの変数について観測できていないということになる。D_i = 0の iについてはY_i(0)が観測され、逆にD_i = 1の人iについてはY_i(0)が観測されていない。
このような欠損値があるがゆえに処置の効果が直接にはわからない、という考え方をする。これが潜在アウトカムの考え方である。
具体的に書く。処置変数を
D_i = \begin{cases} 1 & \text{if individual } i \text{ is treated} \\ 0 & \text{if individual } i \text{ is untreated} \end{cases}
と書くと、観測アウトカム Y_i は
Y_i = D_i Y_i(1) + (1-D_i)Y_i(0)
と表せる。
この式はとても重要である。
なぜなら、各個体について
- 処置を受けたなら Y_i(1) だけが観測され
- 処置を受けなかったなら Y_i(0) だけが観測される
ことを意味しているからである。
したがって、各個体についての因果効果
Y_i(1)-Y_i(0)
は定義できるが、同じ個体について両方を同時に観測することはできない。
これを因果推論の根本問題という。
因果推論で知りたいパラメータ
では、因果推論で知りたい量とは何だろうか。
もっとも基本的なのは、個体ごとの因果効果
Y_i(1)-Y_i(0)
である。
しかし、これは各個体について直接は観測できないので、通常はその平均を考える。
平均処置効果
母集団全体での平均処置効果は
ATE = E[Y_i(1)-Y_i(0)]
である。
これは、
ランダムに1人取り出したとき、その人を処置した場合としなかった場合で、平均してアウトカムがどれだけ変わるか
を表している。
処置群に対する平均処置効果
一方、実証研究ではしばしば
ATT = E[Y_i(1)-Y_i(0)\mid D_i=1]
を知りたい。
これは Average Treatment effect on the Treated の略で、
実際に処置を受けた人たちにとって、処置は平均してどれだけの効果を持ったか
を表している。
たとえば政策評価では、
- 政策対象となった地域
- 補助金を受けた企業
- 実際に制度変更の影響を受けた世代
に対する効果が知りたいことが多いので、ATT が重要になる。
なぜこれが難しいのか
ATT を書き下すと、
ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=1]
である。
ここで、第一項
E[Y_i(1)\mid D_i=1]
は観測できる。
なぜなら、処置群について実際に観測されるアウトカムがこれだからである。
しかし、第二項
E[Y_i(0)\mid D_i=1]
は観測できない。
これは
処置群が、もし処置を受けなかったならどうなっていたか
という反実仮想だからである。
ここが因果推論の核心で、要するにこれをどうにかしようということをみんな頑張っている。
なぜ単純な平均差ではだめなのか
処置群と非処置群の観測平均の差は
E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0]
である。
観測アウトカムの式を使うと、これは
E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=0]
と書ける。
一方で知りたいのは
ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=1]
であった。
両者の差を比べると、
E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0] = ATT + \Bigl( E[Y_i(0)\mid D_i=1] - E[Y_i(0)\mid D_i=0] \Bigr)
となる。
右端の
E[Y_i(0)\mid D_i=1] - E[Y_i(0)\mid D_i=0]
は、処置がなかったとしても両群に平均差がある部分 である。
つまり、単純な平均差は
- 本当の因果効果
- もともとの群の違い
を両方含んでいる。
だから、単純な平均差をそのまま因果効果と呼ぶことはできない。
識別とは、データと仮定から知りたいパラメータを一意に結びつけられることを指す。回帰係数が計算できること自体は、まだ因果効果が分かったことを意味しない。
識別とは何か
ここで「識別」という言葉をはっきりさせておこう。
因果推論で知りたいパラメータは、たとえば
ATT = E[Y_i(1)-Y_i(0)\mid D_i=1]
のような 潜在アウトカムで定義された量 である。
しかし、このままでは Y_i(0) の反実仮想が含まれているので、そのままでは観測データから計算できない。
そこで、何らかの仮定を使って、このパラメータを 観測可能な量だけで書き直す 必要がある。
これが因果推論の文脈で言われる識別である。
たとえば、もし
E[Y_i(0)\mid D_i=1] = E[Y_i(0)\mid D_i=0]
が成り立つなら、
ATT = E[Y_i(1)\mid D_i=1] - E[Y_i(0)\mid D_i=0]
となる。
さらに観測データでは
E[Y_i(1)\mid D_i=1] = E[Y_i\mid D_i=1]
および
E[Y_i(0)\mid D_i=0] = E[Y_i\mid D_i=0]
だから、
ATT = E[Y_i\mid D_i=1] - E[Y_i\mid D_i=0]
と書ける。
このとき初めて、観測データの平均差が因果効果を表す。
つまり、識別とは
見えない反実仮想を、仮定を使って見える量に置き換えること
である。
そして、
E[Y_i(0)\mid D_i=1] = E[Y_i(0)\mid D_i=0]
これは
処置D_iが処置されない時の結果と平均的には関係がない
ということを意味している。このような状況をランダムアサインメントと呼ぶ。
お気づきの通り、これは我々が今まで実験と読んできた状況である。このような実験をRandomized Controlled Trial (RCT)と呼ぶ。
「RCTができるなら、回帰すればいい。」というこの講義の最初から言い続けてきたことがここでも表れている。
そして同時に、「実験ができない時は識別戦略を慎重に考えなくてはならない」という、これまた今まで言い続けてきたことがここでも成り立っている。
回帰は何をしているのか
この観点から見ると、回帰分析の役割もはっきりする。
回帰は、たとえば
Y_i = \beta_0 + \beta_1 D_i + X_i'\gamma + u_i
のような形で、処置変数 D_i と他の変数 X_i を同時に入れて推定する。
ここで X_i は年齢、教育、地域、性別などのコントロール変数である。
このとき \beta_1 を因果効果として読みたければ、
X_i を一定にしたとき、処置の有無は潜在アウトカムと独立である
というような仮定が必要になる。
つまり、回帰そのものが因果効果を自動的に生み出すわけではない。
回帰は、識別仮定のもとで因果パラメータを推定するための道具 である。
この意味で、
- どんな回帰式を書くか
- その係数を何として解釈するか
- その解釈にどんな仮定が必要か
は必ずセットで考えなければならない。
今後の講義で何をするのか
今後の講義では、因果推論の代表的な作戦として
- Difference-in-Differencess
- Fixed Effect Model
- Instrumental Variables
- Regression Discontinuity
などを学んでいく。
これらはすべて、違う見た目をしているようでいて、本質的には同じことをしている。
つまり、
- まず潜在アウトカムで知りたい因果パラメータを定義する
- そのままでは観測できない反実仮想がどこにあるかを確認する
- ある仮定のもとで、そのパラメータを観測データで書ける形にする
- 最後に回帰や平均差などの統計量で推定する
という流れである。
因果推論を学ぶときに本当に重要なのは、テクニックの名前を覚えることではない。
何を知りたいのか。そのために、どの反実仮想を、どんな仮定で埋めているのか。
これを明確に言えるようになることが重要である。
まとめ
このセクションのポイントは次の通りである。
- 因果推論で知りたいのは、処置があった世界となかった世界の差である
- その差は潜在アウトカム Y_i(1),\;Y_i(0) を使って書ける
- しかし各個体について両方を同時に観測することはできない
- そこで ATE,\quad ATT のような平均因果効果を定義する
- さらに、見えない反実仮想を観測可能な量で書けるようにすることが識別である
- 回帰は、その識別仮定のもとでパラメータを推定するための道具である