【因果推論】逆確率重み付け法

こちらの第3章後半です

入門統計的因果推論

作者:Judea Pearl,Madelyn Glymour,Nicholas P. Jewell
朝倉書店

Amazon

以前効果検証入門でも学習していましたが、表記方法や捉え方が異なっていたため、まとめてみました。

hiramekun.hatenablog.com

前提

逆確率重み付け法とは、バックドア基準やフロントドア基準を満たしている共変量 $Z$ に対して、傾向スコアを持ちいることで効率的に $P(y \mid do(x))$ を求める方法である。（下図はバックドア基準を $z$ が満たしている例）

バックドア基準やフロントドア基準を使えば、実際に介入することなく効果量を計算することができる。このためには、基準を満たす共変量 $Z$ を見つけて、調整化公式を適用すれば良い。

ここで調整化公式を思い出すと、いずれも $Z$ に関して総和を取っている。

バックドア基準： $P(y \mid d o(x))=\sum_{z} P(y \mid x, z) P(z)$
フロントドア基準： $P(y \mid d o(x))=\sum_{z} P(z \mid x) \sum_{x^{\prime}} P\left(y \mid x^{\prime}, z\right) P\left(x^{\prime}\right)$

これは、 $Z$ の取りうる値が大きくなればなるほど計算量は大きくなるということを表している。

傾向スコアと逆確率重み付け法

これを解決するのが、傾向スコア と 逆確率重み付け法 である。

傾向スコアは $g(x, z) = P(X=x|Z=z)$ で表される関数で、効果検証入門によると以下のような意味を持ち、ロジスティック回帰などで求めることができるという。

傾向スコアとは、各サンプルにおいて介入が行われる確率のこと。傾向スコアを用いた分析は、介入が行われた仕組みに注目し、介入グループと非介入グループのデータの性質を近くするする操作を行う。
『効果検証入門』用語まとめ - ひらめの日常

ベイズの法則より、

${ P(Y=y, Z=z|Z=z) = \frac{P(Y=y, Z=z, X=x)}{P(X=x)} }$

これ合わせて、調整化公式の $P(y \mid d o(x))=\sum_{z} P(y \mid x, z) P(z)$ の分母分子に傾向スコアをかけて式変形をすると、以下が導出される。

${ \begin{eqnarray} P(y|do(x)) &=& \sum_z \frac{P(Y=y|X=x, Z=z)P(X=x|Z=z)P(Z=z)}{P(X=x|Z=z)} \\ &=& \sum_z \frac{P(X=x, Y=y, Z=z)}{P(X=x|Z=z)} \end{eqnarray} }$

つまり、母集団のそれぞれのケースの確率を、傾向スコアで割れば良い。

※ 『効果検証入門』では確率ではなく期待値を求めていた点などで式の表現が異なっている。

何が嬉しいか

これにより、計算量は調整化公式を用いる時と比べて削減できている。例えば、 $Z$ の取りうる値が数百万あったとする。それに対して、得られたデータが数百件だったとする。この時、

調整化公式を用いると、例えば $Z$ がバックドア基準を満たしていた場合、全ての $Z$ に対して $P(y \mid x, z) P(z)$ を計算する必要がある。
逆確率重み付け法を用いると、観測されていない $P(X=x, Y=y, z=z)$ は考慮に入れなくて良いため、観測された分のみ計算すれば良くなる。

この辺も後で読みたい

逆確率重み付け（IPW）のイメージ。

まず、簡単な例から答えを準備。飽和モデルでは、ノンパラg-formulaとIPWは一致することを利用します。

共変量Lで条件つけることで交換可能性が成立するとします。
つまりこの時、AとYとの「関連」は、AのYへの「効果」と考えられます。 https://t.co/ugeVA6S7w4 pic.twitter.com/ijthimurXE
— Sato Shuntaro｜佐藤俊太朗 (@Shuntarooo3) March 26, 2022