因果推論

【因果推論】エスティマンドの概念

【因果推論】エスティマンドの概念

因果推論において重要な概念であるエスティマンドの概念について解説します。

エスティマンドの概要

因果推論は、ある処置(介入)を行った際に出力に与える影響を推定するための手法です。ここで処置(介入)とは、例えば治療や政策介入など影響を与える動きのことを言っています。

因果推論では「何を知りたいのか?」を明確にするためにエスティマンドという概念が重要になります。この記事では、因果推論におけるエスティマンドの概念について説明し、代表的なエスティマンドの種類を紹介します。

推定器と推定量

データから因果関係を推定する際には「推定器(Estimator)」と「推定量(Estimate)」があります。

  • 推定器:因果効果やパラメータを推定するために使用される統計的手法やアルゴリズムのこと
  • 推定量:特定のデータセットをもとに推定器を適用した結果の数値

推定器には、単純な平均などを計算するものから、ディープラーニングのように数億ものパラメータを使った言語モデルまで多岐にわたります。推定器を用いて具体的なデータセットに対して計算を行った結果が推定量になります。

エスティマンドとは

エスティマンド(Estimand)は、理論的に求めたい因果効果を数学的に定義したものです。これは、どのような因果効果を測定しようとしているかを明確にするための概念です。実際にデータから算出される推定量(Estimate)とは異なり、エスティマンドは「もしバイアスのない完全なデータが利用できるならば求められる理想的な値」と考えることができます。

例えば、薬の効果を知りたい場合、同じ人が治療を受けた場合と受けなかった場合の結果を比較したいと考えます。しかし、現実には同じ個体に対して両方の状況を同時に観測することはできないため、反事実(Counterfactual)を推定する必要があります。反事実は、因果推論における重要な概念である「因果のはしご」において扱われるものです。

このような反事実も考慮しながら因果効果を定義することがエスティマンドの役割であり、そもそも何を推定しようとしているかを定義するためにあります。

「因果のはしご(Ladder of Causation)」とは、Judea Pearl によって提唱された因果関係を理解するための三段階の枠組みです。具体的には、①関連(Association)、②介入(Intervention)、③反事実(Counterfactual)というレベルで因果推論の理解を深めます。「因果のはしごの概要」で詳しく説明しているので参考にしてください。

代表的なエスティマンド

代表劇なエスティマンドに這いつくか種類があり研究の目的に応じて選択することになります。ここでは、代表的なものを紹介していきます。

平均因果効果(ATE : Average Treatment Effect)

平均因果効果(ATE: Average Treatment Effect)は、母集団における平均的な因果効果を示します。数式で表現すると以下のようになります。

\[
\begin{eqnarray}
ATE=E[Y(1) – Y(0)]
\end{eqnarray}
\]

ここで各要素は以下のような意味を持ちます。

  • $Y(1)$:処置を受けた場合の出力
  • $Y(0)$:処置を受けなかった場合の出力
  • $E[\cdot]$:期待値

ATEは、処置を受けた場合と受けなかった場合の出力の差の期待値ということになるため、文章にしてみると「もし、全ての個体が処置(介入)を受けた場合と受けなかった場合を比較したらどうなるか」を測る指標となります。

処置群における平均因果効果 (ATT: Average Treatment Effect on the Treated)

処置群における平均因果効果(ATT: Average Treatment Effect on the Treated)は、実際に処置(介入)を受けた集団における因果効果を示します。数式で表現すると以下のようになります。

\[
\begin{eqnarray}
ATT=E[Y(1) – Y(0) | D=1]
\end{eqnarray}
\]

ここで、$D=1$は処置(介入)を受けた個体を意味します。これは「実際に処置(介入)を受けた人に対して、どの程度の影響を与えたか」を評価する指標となります。

対照群における平均因果効果 (ATU: Average Treatment Effect on the Untreated)

対照群における平均因果効果(ATU: Average Treatment Effect on the Untreated)は、処置(介入)を受けなかった集団における因果効果を示します。数式で表現すると以下のようになります。

\[
\begin{eqnarray}
ATU=E[Y(1) – Y(0) | D=0]
\end{eqnarray}
\]

ここで、$D=0$は処置(介入)を受けなかった個体を意味します。これは「もし処置(介入)を受けなかった人に対して、どの程度の影響があったか」を評価する指標となります。

条件付き平均因果効果 (CATE: Conditional ATE)

条件付き平均因果効果(CATE: Conditional ATE)は、特定の条件を満たす個体群における因果効果を示します。数式で表現すると以下のようになります。

\[
\begin{eqnarray}
CATE=E[Y(1) – Y(0) | X=x]
\end{eqnarray}
\]

ここで、$X$は特定の個体の特徴(例えば、年齢、性別、健康状態など)を表します。$X$が特定の$x$であるときの平均因果効果がCATEになります。

CATEは「特定の条件のサブグループに対して処置(介入)をした効果がどの程度の影響があったのか」を評価する際に有用です。機械学習モデルを利用して個々の特性ごとの処置効果のばらつきを捉える「異質な処置効果(Heterogeneous Treatment Effect)」の分析において、特に重要な指標となります。

まとめ

因果推論において重要な概念であるエスティマンドの概念について解説しました。

エスティマンドは、因果推論において「何を知りたいのか?」を明確にするための重要な概念であり、代表的なエスティマンドとして、ATE、ATT、ATU、CATEを紹介しました。

  • ATE: 母集団全体における平均因果効果
  • ATT: 処置(介入)を受けた人における因果効果
  • ATU: 処置(介入)を受けなかった人における因果効果
  • CATE: 特定の条件を満たす人における因果効果

実際のデータ分析では、これらのエスティマンドを適切に定義し、推定するための手法を選択することが求められます。エスティマンドの考え方をしっかり理解してもらえたらと思います。