確率変数のsub-Gaussian性

/ Probability Math

Xを確率変数とし、その平均をμ=E[X]とする。このとき、ある正数σが存在して

E[eλ(Xμ)]eσ2λ2/2

を任意のλについて満たすとき、Xはパラメータσのsub-Gaussianであるという。

これが確率変数のsub-Gaussian性です。性の付き方おかしい気がしますが、、。日本語で言うと準ガウス性といったところでしょうか。訳しているところ見たことありませんが。

正規分布に従う確率変数はsub-Gaussian

Xを平均μ、分散σ2の正規分布N(μ,σ2)に従う(連続)確率変数とする。Xのモーメント母関数を計算すると、

E[eλX]=12πσ2exp(λx(xμ)22σ2)dx=12πσ2exp(λxx22xμ+μ22σ2)dx=12πσ2exp(x22(μ+λσ2)x+μ22σ2)dx=12πσ2exp((xμλσ2)2μ22μλσ2λ2σ4+μ22σ2)dx=12πσ2exp(μλ+λ2σ22)exp((xμλσ2)22σ2)dx=exp(μλ+λ2σ22)

となります。したがって

E[eλX]=eμλ+λ2σ2/2E[eλ(Xμ)]=eλ2σ2/2

がわかります。確率変数がsub-Gaussianであるための条件を等号で満たしているので、正規分布に従う確率変数はパラメータσのsub-Gaussian変数です。正規分布に従う確率変数のことをGaussian変数だとか言ったりするのでsub-ついたものが付いてないものを含んでいるのは当然ですね。

Rademacher確率変数はSub-Gaussian

εという確率変数を値{1,+1}と等確率で取る確率変数とします。つまりP[ε=1]=P[ε=+1]=1/2ということです。このような確率変数をRademacher変数といいます。Rademacher確率変数はσ=1のSub-Gaussian変数です。実際、

E[eλε]=12(eλ+eλ)=12(k=0(λ)kk!+k=0λkk!)=k=0λ2k(2k)!1+k=11k!(λ22)k=eλ2/2

です。今度は等号ではなく不等式で条件を満たしています。

途中使っているのは2kk!(2k)!という不等式で、分母がこうなのでトータルの大小関係はこの逆になります。両辺をk!で割ってみれば2××2(2k)××(2k+1)となるので大小関係は明らかですね。かける回数は両方k回、左辺は2しか掛けてないのに対して右辺は明らかに2より大きいものを掛けています。

以上よりRademacher変数はσ=1のSub-Gaussianです。

有界な値を取る確率変数はsub-Gaussian

他のsub-Gaussian変数にはどんなものがあるんでしょうか。簡単なのは有界区間[a,b]にのみ値をとる確率変数です。a<bです。これを確かめます。

X[a,b]に値をとる確率変数で、今一般性を損なわずに平均はゼロ(E[X]=0)とします。Xを、Xと同じ分布を持つ独立な別の確率変数とすると、

EX[eλX]=EX[eλ(XEX[X])]EX,X[eλ(XX)]

です。途中で挿入したEX[X]はゼロのはずですからこれを引いても式の値を変えません。2番目の不等式は凸関数f(x)=exにするJensenの不等式

f(E[X])E[f(X)]

です。指数関数が凸関数であることはグラフをイメージすれば明らかにわかりますね。次に前に出てきたRademacher変数εを導入します。既に出てきたX,Xとはまた独立とします。これを用いると次のような変形が可能です。

EX,X[eλ(XX)]=EX,X[Eε[eλε(XX)]]EX,X[eλ2(XX)2/2]

最初にeλ(XX)=Eε[eλε(XX)]という等式ですが、書き下してみると明らかです。

Eε[eλε(XX)]=eλ(+1)(XX)×P[ε=+1]+eλ(1)(XX)×P[ε=1]=12eλ(XX)+12eλ(XX)

となりました。X,Xは同じ分布に従う独立な変数ですから、XXも、XXもまた別な新たな確率変数とおいてしまえば同じ分布に従うはずです。なので両者は足し合わせることが出来て、元の式のようになります。最後の不等式はRademacher変数がsub-Gaussianということを確認した式変形においてλλ(XX)と置き換えたものです。

仮定より|XX||ba|という値より大きな値を取りません。これを踏まえると右辺の期待値は抑えることが出来て、結局

E[eλX]EX,X[eλ(XX)]EX,X[eλ2(XX)2/2]eλ2(ba)2/2

を得ます。これよりXは少なくともパラメータσ=baのsub-Gaussianであるとわかりました。少なくとも、といいましたが見ての通りこの確認の仕方は3つぐらいの不等式を経由しています。もうちょっと別なやり方でやると実はよりtightな不等式を導くことができ、それによるとσ=(ba)/2です。それはそれとしてこういう対称な変数を持ってくるやり方、symmetrization argumentといってよくやるようです。

つづき

sub-Gaussianだと何が嬉しいのか?

参考文献

Martin J. Wainwright, High-Dimensional Statistics, A Non-Asymptotic Viewpoint, 2019, Cambridge University Press, pp. 21-51, https://doi.org/10.1017/9781108627771.