確率変数のsub-Gaussian性

/ Probability Math

\(X\)を確率変数とし、その平均を\(\mu=\mathbb{E}[X]\)とする。このとき、ある正数\(\sigma\)が存在して

\[ \mathbb{E}[e^{\lambda(X-\mu)}]\le e^{\sigma^2\lambda^2/2}\]

を任意の\(\lambda\)について満たすとき、\(X\)はパラメータ\(\sigma\)のsub-Gaussianであるという。

これが確率変数のsub-Gaussian性です。性の付き方おかしい気がしますが、、。日本語で言うと準ガウス性といったところでしょうか。訳しているところ見たことありませんが。

正規分布に従う確率変数はsub-Gaussian

\(X\)を平均\(\mu\)、分散\(\sigma^2\)の正規分布\(\mathcal{N}(\mu,\sigma^2)\)に従う(連続)確率変数とする。\(X\)のモーメント母関数を計算すると、

\[ \begin{align} \mathbb{E}[e^{\lambda X}] &=\frac1{\sqrt{2\pi\sigma^2}}\int \exp\left(\lambda x-\frac{(x-\mu)^2}{2\sigma^2}\right)dx\\ &=\frac1{\sqrt{2\pi\sigma^2}}\int \exp\left(\lambda x-\frac{x^2-2x\mu+\mu^2}{2\sigma^2}\right)dx\\ &=\frac1{\sqrt{2\pi\sigma^2}}\int \exp\left(-\frac{x^2-2(\mu+\lambda\sigma^2)x+\mu^2}{2\sigma^2}\right)dx\\ &=\frac1{\sqrt{2\pi\sigma^2}}\int \exp\left(-\frac{(x-\mu-\lambda\sigma^2)^2 -\mu^2-2\mu\lambda\sigma^2-\lambda^2\sigma^4+\mu^2}{2\sigma^2}\right)dx\\ &=\frac1{\sqrt{2\pi\sigma^2}} \exp\left(\mu\lambda+\frac{\lambda^2\sigma^2}{2}\right) \int\exp\left(-\frac{(x-\mu-\lambda\sigma^2)^2} {2\sigma^2}\right)dx\\ &= \exp\left(\mu\lambda+\frac{\lambda^2\sigma^2}{2}\right) \end{align}\]

となります。したがって

\[ \mathbb{E}[e^{\lambda X}]=e^{\mu\lambda+\lambda^2\sigma^2/2}\\ \mathbb{E}[e^{\lambda(X-\mu)}]=e^{\lambda^2\sigma^2/2}\\\]

がわかります。確率変数がsub-Gaussianであるための条件を等号で満たしているので、正規分布に従う確率変数はパラメータ\(\sigma\)のsub-Gaussian変数です。正規分布に従う確率変数のことをGaussian変数だとか言ったりするのでsub-ついたものが付いてないものを含んでいるのは当然ですね。

Rademacher確率変数はSub-Gaussian

\(\varepsilon\)という確率変数を値\(\{-1,+1\}\)と等確率で取る確率変数とします。つまり\(\mathbb{P}[\varepsilon=-1]=\mathbb{P}[\varepsilon=+1]=1/2\)ということです。このような確率変数をRademacher変数といいます。Rademacher確率変数は\(\sigma=1\)のSub-Gaussian変数です。実際、

\[ \begin{align} \mathbb{E}[e^{\lambda\varepsilon}]&=\frac12(e^{-\lambda}+e^\lambda)\\ &=\frac12\left(\sum_{k=0}^\infty\frac{(-\lambda)^k}{k!} +\sum_{k=0}^\infty\frac{\lambda^k}{k!}\right)\\ &=\sum_{k=0}^\infty\frac{\lambda^{2k}}{(2k)!}\\ &\le 1+\sum_{k=1}^\infty\frac1{k!}\left(\frac{\lambda^2}{2}\right)^k\\ &=e^{\lambda^2/2} \end{align}\]

です。今度は等号ではなく不等式で条件を満たしています。

途中使っているのは\(2^kk!\le (2k)!\)という不等式で、分母がこうなのでトータルの大小関係はこの逆になります。両辺を\(k!\)で割ってみれば\(2\times\cdots\times 2\le (2k)\times\cdots\times(2k+1)\)となるので大小関係は明らかですね。かける回数は両方\(k\)回、左辺は2しか掛けてないのに対して右辺は明らかに2より大きいものを掛けています。

以上よりRademacher変数は\(\sigma=1\)のSub-Gaussianです。

有界な値を取る確率変数はsub-Gaussian

他のsub-Gaussian変数にはどんなものがあるんでしょうか。簡単なのは有界区間\([a,b]\)にのみ値をとる確率変数です。\(a\lt b\)です。これを確かめます。

\(X\)\([a,b]\)に値をとる確率変数で、今一般性を損なわずに平均はゼロ(\(\mathbb{E}[X]=0\))とします。\(X'\)を、\(X\)と同じ分布を持つ独立な別の確率変数とすると、

\[ \mathbb{E}_X[e^{\lambda X}]=\mathbb{E}_X[e^{\lambda(X-\mathbb{E}_{X'}[X'])}] \le\mathbb{E}_{X,X'}[e^{\lambda(X-X')}]\]

です。途中で挿入した\(\mathbb{E}_{X'}[X']\)はゼロのはずですからこれを引いても式の値を変えません。2番目の不等式は凸関数\(f(x)=e^x\)にするJensenの不等式

\[ f(\mathbb{E}[X])\le\mathbb{E}[f(X)]\]

です。指数関数が凸関数であることはグラフをイメージすれば明らかにわかりますね。次に前に出てきたRademacher変数\(\varepsilon\)を導入します。既に出てきた\(X,X'\)とはまた独立とします。これを用いると次のような変形が可能です。

\[ \begin{align}\mathbb{E}_{X,X'}[e^{\lambda(X-X')}] &=\mathbb{E}_{X,X'}[\mathbb{E}_\varepsilon[e^{\lambda\varepsilon(X-X')}]]\\ &\le\mathbb{E}_{X,X'}[e^{\lambda^2(X-X')^2/2}] \end{align}\]

最初に\(e^{\lambda(X-X')}=\mathbb{E}_\varepsilon[e^{\lambda\varepsilon(X-X')}]\)という等式ですが、書き下してみると明らかです。

\[ \begin{align} \mathbb{E}_\varepsilon[e^{\lambda\varepsilon(X-X')}] &=e^{\lambda(+1)(X-X')}\times\mathbb{P}[\varepsilon=+1]+ e^{\lambda(-1)(X-X')}\times\mathbb{P}[\varepsilon=-1]\\ &=\frac12e^{\lambda(X-X')}+\frac12e^{\lambda(X'-X)} \end{align}\]

となりました。\(X,X'\)は同じ分布に従う独立な変数ですから、\(X-X'\)も、\(X'-X\)もまた別な新たな確率変数とおいてしまえば同じ分布に従うはずです。なので両者は足し合わせることが出来て、元の式のようになります。最後の不等式はRademacher変数がsub-Gaussianということを確認した式変形において\(\lambda\to\lambda(X-X')\)と置き換えたものです。

仮定より\(|X-X'|\)\(|b-a|\)という値より大きな値を取りません。これを踏まえると右辺の期待値は抑えることが出来て、結局

\[ \mathbb{E}[e^{\lambda X}]\le\mathbb{E}_{X,X'}[e^{\lambda(X-X')}]\le \mathbb{E}_{X,X'}[e^{\lambda^2(X-X')^2/2}]\le e^{\lambda^2(b-a)^2/2}\]

を得ます。これより\(X\)は少なくともパラメータ\(\sigma=b-a\)のsub-Gaussianであるとわかりました。少なくとも、といいましたが見ての通りこの確認の仕方は3つぐらいの不等式を経由しています。もうちょっと別なやり方でやると実はよりtightな不等式を導くことができ、それによると\(\sigma=(b-a)/2\)です。それはそれとしてこういう対称な変数を持ってくるやり方、symmetrization argumentといってよくやるようです。

つづき

sub-Gaussianだと何が嬉しいのか?

参考文献

Martin J. Wainwright, High-Dimensional Statistics, A Non-Asymptotic Viewpoint, 2019, Cambridge University Press, pp. 21-51, https://doi.org/10.1017/9781108627771.