数学Python Tech

L1正則化とL2正則化の概要と効果

naoki-hn — Wed, 21 Sep 2022 20:00:00 +0000

機械学習の分野において汎化誤差を減少させる方法の 1 つである L1 正則化と L2 正則化について概要と効果についてまとめます。

過学習と正則化

機械学習では、モデルを決めたうえで学習データに対して学習を行い、テストデータを使ってモデルの評価をするということを行います。

テストデータは、学習時には未知のデータであり、このような未知のデータに対する誤差を小さくできるようなモデルが望ましいです。未知のデータに対してモデルを適用できるようにすることを汎化と言い、未知のデータに対する誤差を汎化誤差と言います。

ただし、機械学習ではよく学習データに過度にモデルが適合してしまう過学習という現象が起こります。過学習では、学習データに対する誤差は非常に小さくなるのですが、未知のデータであるテストデータに対する汎化誤差は大きくなってしまいます。

過学習発生しないようにして、汎化誤差を減少させる目的で学習のアルゴリズムに適用する変更の事を正則化と言います。この記事では、正則化でよく用いられる方法であるL1 正則化と L2 正則化について、数式の意味や効果について紹介していきます。

L1 正則化と L2 正則化の概要と効果

以降では、L1 正則化と L2 正則化の式を紹介しつつ、数式の図的な意味とその効果について説明していきます。なお、以降では、損失関数を $\mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}})$、正則化を加えた目的関数 $\mathrm{R}$ と表現することとします。

L1 正則化

L1 正則化項を損失関数に加えた目的関数 $\mathrm{R}_{l1}$ は、以下の式のように表すことができます。なお、$\alpha$ は正則化項の影響の度合いを決定するハイパーパラメータで自分で決める必要があります。

\[
\mathrm{R}_{l1} = \mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}}) + \alpha\sum_{i=0}^{n}|w_{i}|
\]

L1 正則化項は、機械学習のモデルの重みパラメータの絶対値の和となっています。モデルを最適化する場合には、$\mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}})$ を最小化するのではなく、正則化項を加えた $\mathrm{R}_{l1}$ を最小化します。

L1 正則化は、数式を見ると分かるようにパラメータの値 $\boldsymbol{w}$ が大きくなると目的関数が大きくなってしまうため、$\boldsymbol{w}$ が大きくならないように制約をかけているという意味になります。

L1 正則化と後述する L2 正則化では、制限のかかり方が異なっており、それが性質の違いに現れます。では、L1 正則化がどのような効果を持っているのかについて以下の図を見ながら確認しましょう。この図はよく L1 正則化の説明で出てくる図です。

簡単のためにパラメータは $w_{1}$ と $w_{2}$ の 2 つとします。

オレンジの円は損失関数 $\mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}})$ の等高線だと思ってください。同じ線上では $\mathrm{E}$ の値は同じで円の内側ほど損失関数の値は小さいものとします。

また、青い線は L1 正則化項の等高線です。例えば $w_{1}+w_{2}=c$ ($c$ は定数) となるような線が図中のそれぞれの線になります。

この図を見たときに損失関数と正則化項を足した関数 $\mathrm{R}_{l1}$ が最小になる点を考えると損失関数と正則化項の等高線が接するような赤い点が最小です。なぜなら、上記図で同じ損失関数の値である円上の点のうち、正則化項が最小となるのはひし形を徐々に拡大していったときに、はじめて楕円と接する点であるためです。

ここでポイントは、損失関数と接する点では、上記の例では $w_{1}$ が 0 となるということです。このため、L1 正則化は、重要なパラメータをそのまま残して不要なパラメータを 0 にする効果があります。このような状況をスパースであると言います。

L2 正則化

L2 正則化項を損失関数に加えた目的関数 $\mathrm{R}_{l2}$ は、以下の式のように表すことができます。なお、$\alpha$ は正則化項の影響の度合いを決定するハイパーパラメータで自分で決める必要があります。

\[
\mathrm{R}_{l2} = \mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}}) +\alpha\sum_{i=0}^{n}w_{i}^{2}
\]

L2 正則化項は、機械学習のモデルの重みパラメータの 2 乗の和となっています。モデルを最適化する場合には、$\mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}})$ を最小化するのではなく、正則化項を加えた $\mathrm{R}_{l2}$ を最小化します。

L2 正則化は、L1 正則化と同じように $\boldsymbol{w}$ が大きくなると目的関数が大きくなってしまうため、$\boldsymbol{w}$ が大きくならないように制約をかけるという意味があります。

では、L2 正則化がどのような効果を持っているのかについて、L1 正則化の時と同じように図を見ながら確認しましょう。この図はよく L2 正則化の説明で出てくる図です。

簡単のためにパラメータは $w_{1}$ と $w_{2}$ の 2 つとします。

オレンジの円は損失関数 $\mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}})$ の等高線です。同じ線上では $\mathrm{E}$ の値は同じで、円の内側に行くほど損失関数の値は小さいものとします。

また、青い線は L2 正則化項の等高線です。例えば $w_{1}^{2}+w_{2}^{2}=c$ ($c$ は定数) となるような線がそれぞれの円というようになります。

この図を見たときに、損失関数と正則化項を足した関数 $\mathrm{R}_{l2}$ が最小になる点を考えてみると損失関数と正則化項の等高線が接するような赤い点が最小です。なぜなら、上記図で同じ損失関数の値である円上の点のうち、正則化項が最小となるのは円を徐々に拡大していったときに、はじめて楕円と接する点であるためです。

ここでポイントは、L2 正則化は、パラメータを全体的に小さくする効果があります。L1 正則化のように 1 部のパラメータを 0 に近づけるような効果はない点を覚えておきましょう。

まとめ

機械学習の分野において汎化誤差を減少させる方法の 1 つである L1 正則化と L2 正則化について概要と効果をまとめました。

L1 正則化と L2 正則化のそれぞれについて図的な意味についても紹介しています。それぞれの正則化の数式と効果をまとめてみると以下の通りです。

正則化	数式	効果
L1	$ \mathrm{R}_{l1} = \mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}}) + \alpha\sum_{i=0}^{n}\|w_{i}\| $	重要なパラメータをそのまま残して不要なパラメータを 0 にする効果がある (スパース)
L2	$ \mathrm{R}_{l2} = \mathrm{E}(\boldsymbol{y}, \hat{\boldsymbol{y}}) +\alpha\sum_{i=0}^{n}w_{i}^{2} $	パラメータを全体的に小さくする効果がある

L1 正則化も L2 正則化もパラメータが大きくならないように制約をかけるという点では同じですが、効果には特徴の違いがあります。よく効果の特徴を理解した上でモデルへの適用を検討してみてください。

正規分布間のKLダイバージェンス（Kullback-Leibler divergence）の導出

naoki-hn — Mon, 12 Sep 2022 19:00:00 +0000

正規分布間のKLダイバージェンス（Kullback-Leibler divergence）について、導出を一度丁寧にしてみたので紹介します。

KLダイバージェンス（Kullback-Leibler divergence）

KLダイバージェンス（Kullback-Leibler divergence）とは、２つの確率分布の差を数値化したもので、機械学習の分野では損失関数の項目として使用されます。特に生成モデルで重要な考え方になってきます。

KLダイバージェンスの式は、確率分布$p(x)$、$q(x)$があった場合に以下のようになります。

\[
\begin{eqnarray}
D_{KL}[p(x)][q(x)] &=& \int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx \\
&=& \int_{-\infty}^{\infty}p(x) \log p(x)dx – \int_{-\infty}^{\infty}p(x) \log q(x)dx
\end{eqnarray}
\]

KLダイバージェンスには、$D_{KL}[p(x)][q(x)] \geq 0$という性質があり、$D_{KL}[p(x)][q(x)] = 0$となるのは、$p(x)$と$q(x)$の分布が完全に一致する場合になります。

この性質から、機械学習では損失関数にKLダイバージェンスの項を追加して最小化することで、分布間を近づけるように学習させるということがよく行われます。

本記事では、このKLダイバージェンスに関して正規分布間の計算をするとどういった式が導出されるかを具体的に計算してみようと思います。生成モデルである変分自己符号化器(Variational Auto Encoder）では、まさに正規分布のKLダイバージェンスが使用されているため理解しておくと役に立ちます。

KL ダイバージェンスの注意点としては、一般的に $D_{KL}[p(x)][q(x)] \neq D_{KL}[q(x)][p(x)]$ である点です。どちらを基準にするかで変わるので注意しましょう。ちなみに、本記事では取り上げませんが、JS ダイバージェンス（Jensen-Shanon divergence）では、分布を入れ替えても同様の値が得られます。

正規分布間のKLダイバージェンスの導出

１次元正規分布の場合

1次元正規分布の場合で正規分布間のKLダイバージェンスを導出してみようと思います。分布$p(x)$、$q(x)$を以下であるとします。

\[
\begin{eqnarray}
p(x) &=& \mathcal{N}(x|\mu_{1}, \sigma^{2}_{1}) \\
q(x) &=& \mathcal{N}(x|\mu_{2}, \sigma^{2}_{2})
\end{eqnarray}
\]

なお、1次元の正規分布の式は以下のようになります。

\[
\mathcal{N}(x|\mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left(-\frac{1}{2\sigma^{2}}(x – \mu)^{2}\right)
\]

では、KLダイバージェンスの式の中の$\log\frac{p(x)}{q(x)}$について、まず計算してみましょう。

\[
\begin{eqnarray}
\log\frac{p(x)}{q(x)} &=& \log p(x) – \log q(x) \\
&=& \log\left(\frac{1}{\sqrt{2\pi\sigma^{2}_{1}}}\exp\left(-\frac{1}{2\sigma^{2}_{1}}(x – \mu_{1})^{2}\right)\right)
– \log\left(\frac{1}{\sqrt{2\pi\sigma^{2}_{2}}}\exp\left(-\frac{1}{2\sigma^{2}_{2}}(x – \mu_{2})^{2}\right)\right)\\
&=& \log\frac{\sigma_{2}}{\sigma_{1}} + \frac{1}{2\sigma^{2}_{2}}(x – \mu_{2})^{2} – \frac{1}{2\sigma^{2}_{1}}(x – \mu_{1})^{2}
\end{eqnarray}
\]

KLダイバージェンスは、上記の式の$p(x)$に関する期待値になっているのが分かるかと思います。$p(x)$の期待値を$E_{p}[\cdot]$と書くと、以下のように書くことができます。

\[
\begin{eqnarray}
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx &=& E_{p}\left[\log\frac{p(x)}{q(x)}\right] \\
&=& E_{p}\left[ \log\frac{\sigma_{2}}{\sigma_{1}} \right] + E_{p}\left[\frac{1}{2\sigma^{2}_{2}}(x – \mu_{2})^{2} \right] – E_{p}\left[ \frac{1}{2\sigma^{2}_{1}}(x – \mu_{1})^{2} \right]
\end{eqnarray}
\]

まず第1項については、$x$に依存しない項目であるのでそのままになります。

\[
E_{p}\left[ \log\frac{\sigma_{2}}{\sigma_{1}} \right] = \log\frac{\sigma_{2}}{\sigma_{1}}
\]

第2項は、数式を分解して計算してみましょう。以下の式では$E_{p}[x] = \mu_{1}$、$E_{p}[x^{2}] = \sigma^{2}_{1} + \mu^{2}_{1}$を使用しています。後者は分散の定義から導かれます。

\[
\begin{eqnarray}
E_{p}\left[\frac{1}{2\sigma_{2}^{2}}(x – \mu_{2})^{2} \right] &=& \frac{1}{2\sigma_{2}^{2}} \left( E_{p}[x^{2}] -2\mu_{2}E_{p}[x] + \mu_{2}^{2} \right)\\
&=& \frac{1}{2\sigma_{2}^{2}} ( \sigma_{1}^{2} + \mu_{1}^{2} -2\mu_{1}\mu_{2} + \mu_{2}^{2})\\
&=& \frac{1}{2\sigma^{2}_{2}} \left( \sigma_{1}^{2} + (\mu_{1} – \mu_{2})^{2} \right)
\end{eqnarray}
\]

第3項も同じように計算することができます。

\[
\begin{eqnarray}
E_{p}\left[\frac{1}{2\sigma_{1}^{2}}(x – \mu_{1})^{2} \right] &=& \frac{1}{2\sigma_{1}^{2}} \left( E_{p}[x^{2}] -2\mu_{1}E_{p}[x] + \mu_{1}^{2} \right)\\
&=& \frac{1}{2\sigma_{1}^{2}} ( \sigma_{1}^{2} + \mu_{1}^{2} -2\mu_{1}^{2} + \mu_{1}^{2})\\
&=& \frac{1}{2}
\end{eqnarray}
\]

これで各項目の計算ができたので、最後に整理します。

\[
\begin{eqnarray}
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx &=& E_{p}\left[\log\frac{p(x)}{q(x)}\right] \\
&=& \log\frac{\sigma_{2}}{\sigma_{1}} + \frac{1}{2\sigma^{2}_{2}} \left( \sigma_{1}^{2} + (\mu_{1} – \mu_{2})^{2} \right) – \frac{1}{2}\\
&=& \frac{1}{2}\left( \log\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} + \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} + \frac{(\mu_{1} – \mu_{2})^{2}}{\sigma_{2}^{2}} – 1 \right)
\end{eqnarray}
\]

以上が、1次元正規分布間のKLダイバージェンスの式変形でした。

多次元正規分布の場合

次は、多次元の正規分布の場合で正規分布間のKLダイバージェンスを導出してみようと思います。分布$p(x)$、$q(x)$を以下であるとします。

\[
\begin{eqnarray}
p(\boldsymbol{x}) &=& \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_{1}, \boldsymbol{\Sigma}_{1}) \\
q(\boldsymbol{x}) &=& \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_{2}, \boldsymbol{\Sigma}_{2})
\end{eqnarray}
\]

なお、D次元の正規分布の式は以下のようになります。

\[
\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{\sqrt{(2\pi)^{D}|\boldsymbol{\Sigma}|}}\exp\left(-\frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1} (\boldsymbol{x} – \boldsymbol{\mu}) \right)
\]

では、KLダイバージェンスの式の中の$\log\frac{p(x)}{q(x)}$について、まず計算してみましょう。

\[
\begin{eqnarray}
\log\frac{p(x)}{q(x)} &=& \log p(x) – \log q(x) \\
&=&
\log\left( \frac{1}{\sqrt{(2\pi)^{D}|\boldsymbol{\Sigma}_{1}|}}\exp\left(-\frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{1}})^{\top}\boldsymbol{\Sigma}_{1}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{1}})\right) \right) \\
&-& \log\left( \frac{1}{\sqrt{(2\pi)^{D}|\boldsymbol{\Sigma}_{2}|}}\exp\left(-\frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{2}})^{\top}\boldsymbol{\Sigma}_{2}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{2}})\right) \right) \\
&=& \frac{1}{2}\log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|}
+ \frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{2}})^{\top}\boldsymbol{\Sigma}_{2}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{2}})
-\frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{1}})^{\top}\boldsymbol{\Sigma}_{1}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{1}})
\end{eqnarray}
\]

1次元の時と同じように、$p(x)$の期待値を$E_{p}[\cdot]$と書くとKLダイバージェンスは、以下のように書くことができます。

\[
\begin{eqnarray}
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx = E_{p}\left[\log\frac{p(x)}{q(x)}\right] &=& E_{p}\left[ \frac{1}{2}\log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|} \right] \\
&+& E_{p}\left[ \frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{2}})^{\top}\boldsymbol{\Sigma}_{2}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{2}}) \right] \\
&-& E_{p}\left[ \frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{1}})^{\top}\boldsymbol{\Sigma}_{1}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{1}}) \right]
\end{eqnarray}
\]

まず第1項については、$x$に依存しない項目であるのでそのままになります。

\[
E_{p}\left[ \frac{1}{2}\log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|} \right] = \frac{1}{2}\log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|}
\]

第2項と第3項については、少し数学の特徴を利用して変形していきます。具体的には、以下の2次形式とトレースの関係やトレースの性質を使用します。2次形式というのは$\boldsymbol{x}^{\top}\boldsymbol{A}\boldsymbol{x}$のように表されるもので、正規分布の$\exp$の中に現れるような形式です。また、トレースというのは行列の対角成分の和をとる計算で、$\mathrm{tr}(\cdot)$のように表します。

【2次形式とトレースの関係】

\[
\boldsymbol{x}^{\top}\boldsymbol{A}\boldsymbol{x} = \mathrm{tr}(\boldsymbol{A}\boldsymbol{x}\boldsymbol{x}^{\top})
\]

【トレースの性質】

\[
\mathrm{tr}(\boldsymbol{x}\boldsymbol{y}^{\top}) = \mathrm{tr}((\boldsymbol{x}\boldsymbol{y}^{\top})^{\top}) = \mathrm{tr}(\boldsymbol{y}\boldsymbol{x}^{\top})
\]

上記の特徴を利用して第2項の式を変形してみましょう。なお、$E_{p}[\boldsymbol{x}] = \boldsymbol{\mu}_{1}$、共分散の定義より$E_{p}[\boldsymbol{x}\boldsymbol{x}^{\top}] = \boldsymbol{\Sigma}_{1} + \boldsymbol{\mu}_{1}\boldsymbol{\mu}_{1}^{\top}$を使用します。

\[
\begin{eqnarray}
E_{p}\left[ \frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{2}})^{\top}\boldsymbol{\Sigma}_{2}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{2}}) \right]
&=&
\frac{1}{2} E_{p}\left[\mathrm{tr}\left(\boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{x} – \boldsymbol{\mu}_{2})(\boldsymbol{x} – \boldsymbol{\mu}_{2})^{\top} \right) \right]\\
&=&
\frac{1}{2} \mathrm{tr}\left(\boldsymbol{\Sigma}_{2}^{-1} E_{p}\left[ (\boldsymbol{x} – \boldsymbol{\mu}_{2})(\boldsymbol{x} – \boldsymbol{\mu}_{2})^{\top} \right] \right)\\
&=&
\frac{1}{2} \mathrm{tr} \left(\boldsymbol{\Sigma}_{2}^{-1} E_{p}\left[ \boldsymbol{x}\boldsymbol{x}^{\top} -\boldsymbol{x}\boldsymbol{\mu}_{2}^{\top} -\boldsymbol{\mu}_{2}\boldsymbol{x}^{\top} + \boldsymbol{\mu}_{2}\boldsymbol{\mu}_{2}^{\top} \right] \right) \\
&=&
\frac{1}{2} \mathrm{tr} \left( \boldsymbol{\Sigma}_{2}^{-1} \left( E_{p} \left[ \boldsymbol{x}\boldsymbol{x}^{\top}\right] – 2 E_{p} \left[ \boldsymbol{x}\boldsymbol{\mu}_{2}^{\top} \right] + E_{p} \left [\boldsymbol{\mu}_{2}\boldsymbol{\mu}_{2}^{\top} \right] \right) \right) \\
&=&
\frac{1}{2} \mathrm{tr} \left( \boldsymbol{\Sigma}_{2}^{-1} \left( \boldsymbol{\Sigma}_{1} + \boldsymbol{\mu}_{1}\boldsymbol{\mu}_{1}^{\top} – 2\boldsymbol{\mu}_{1} \boldsymbol{\mu}_{2}^{\top} + \boldsymbol{\mu}_{2}\boldsymbol{\mu}_{2}^{\top} \right) \right) \\
&=&
\frac{1}{2} \mathrm{tr}\left( \boldsymbol{\Sigma}_{2}^{-1}\boldsymbol{\Sigma}_{1} \right) + \frac{1}{2} \mathrm{tr} \left( \boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})^{\top} \right) \\
&=&
\frac{1}{2} \mathrm{tr}\left( \boldsymbol{\Sigma}_{2}^{-1}\boldsymbol{\Sigma}_{1} \right) + \frac{1}{2} (\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})^{\top}\boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})
\end{eqnarray}
\]

同様に第3項を変形します。途中で$E_{p}\left[ (\boldsymbol{x} – \boldsymbol{\mu}_{1})(\boldsymbol{x} – \boldsymbol{\mu}_{1})^{\top}\right]$が出てきますが共分散の定義そのものなので$\boldsymbol{\Sigma}_{1}$になります。

\[
\begin{eqnarray}
E_{p}\left[ \frac{1}{2}(\boldsymbol{x} – \boldsymbol{\mu_{1}})^{\top}\boldsymbol{\Sigma}_{1}^{-1} (\boldsymbol{x} – \boldsymbol{\mu_{1}}) \right]
&=&
\frac{1}{2} E_{p}\left[\mathrm{tr}\left(\boldsymbol{\Sigma}_{1}^{-1}(\boldsymbol{x} – \boldsymbol{\mu}_{1})(\boldsymbol{x} – \boldsymbol{\mu}_{1})^{\top} \right) \right]\\
&=&
\frac{1}{2} \mathrm{tr}\left(\boldsymbol{\Sigma}_{1}^{-1} E_{p}\left[ (\boldsymbol{x} – \boldsymbol{\mu}_{1})(\boldsymbol{x} – \boldsymbol{\mu}_{1})^{\top} \right] \right)\\
&=&
\frac{1}{2}\mathrm{tr}\left( \boldsymbol{\Sigma}_{1}^{-1} \boldsymbol{\Sigma}_{1} \right) \\
&=&
\frac{1}{2}\mathrm{tr}\left( \boldsymbol{I}\right) \\
&=&
\frac{D}{2}
\end{eqnarray}
\]

これで各項目の計算ができたので、最後に整理します。

\[
\begin{eqnarray}
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx &=& E_{p}\left[\log\frac{p(x)}{q(x)}\right] \\
&=&
\frac{1}{2}\log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|}
+\frac{1}{2} \mathrm{tr}\left( \boldsymbol{\Sigma}_{2}^{-1}\boldsymbol{\Sigma}_{1} \right) + \frac{1}{2} (\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})^{\top}\boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})
– \frac{D}{2}\\
&=&
\frac{1}{2}\left( \log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|} + \mathrm{tr}\left( \boldsymbol{\Sigma}_{2}^{-1}\boldsymbol{\Sigma}_{1} \right) + (\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})^{\top}\boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2}) – D \right)
\end{eqnarray}
\]

以上が、多次元であるD次元正規分布間のKLダイバージェンスの式変形でした。

まとめ

KLダイバージェンスに関して正規分布間の計算をするとどういった式が導出されるかを具体的に計算してみました。1次元正規分布間の場合と多次元であるD次元正規分布間の場合のそれぞれでKLダイバージェンスの式変形をしてみています。

具体的に計算したKLダイバージェンスの式は以下のようになります。

【1次元正規分布間のKLダイバージェンス】

$p(x) = \mathcal{N}(x|\mu_{1}, \sigma^{2}_{1})$、$q(x) = \mathcal{N}(x|\mu_{2}, \sigma^{2}_{2})$とするとき

\[
\begin{eqnarray}
D_{KL}[p(x)][q(x)] &=&
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx \\
&=&
\frac{1}{2}\left( \log\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} + \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} + \frac{(\mu_{1} – \mu_{2})^{2}}{\sigma_{2}^{2}} – 1 \right)
\end{eqnarray}
\]

【D次元正規分布間のKLダイバージェンス】

$p(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_{1}, \boldsymbol{\Sigma}_{1})$、$q(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_{2}, \boldsymbol{\Sigma}_{2})$とするとき

\[
\begin{eqnarray}
D_{KL}[p(x)][q(x)] &=&
\int_{-\infty}^{\infty}p(x) \log \frac{p(x)}{q(x)}dx \\
&=&
\frac{1}{2}\left( \log\frac{|\boldsymbol{\Sigma}_{2}|}{|\boldsymbol{\Sigma}_{1}|} + \mathrm{tr}\left( \boldsymbol{\Sigma}_{2}^{-1}\boldsymbol{\Sigma}_{1} \right) + (\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2})^{\top}\boldsymbol{\Sigma}_{2}^{-1}(\boldsymbol{\mu}_{1} – \boldsymbol{\mu}_{2}) – D \right)
\end{eqnarray}
\]

生成モデルである変分自己符号化器(Variational Auto Encoder）等では、正規分布のKLダイバージェンスが使用されているため理解しておくと役に立ちます。