Markovの不等式とChebyshevの不等式

/ Probability Math

マルコフの不等式 (Markov's inequality)

正の値を取る確率変数Xについて

P[Xt]E[X]t

が成立する。これをMarkovの不等式という。これを示す。

まずtI[Xt]Xを確認する。ここでIは指示関数とする(本当は1のmathbbmを出したいんやがMathjaxでやってもでないんよな)。これは横軸tのグラフを書いてみれば明らかです。

Y=XとY=t1(X\ge t)の比較

横軸がXで縦軸がYでいずれも確率変数です。青い線が左辺でY=tI[Xt]、赤線は右辺でそのままY=Xです。図はt=3の場合ですがどのようなtでも成り立つことは明らかでしょう。赤は常に青以上です。ここで両辺の期待値を取ります。

tI[Xt]XE[tI[Xt]]E[X]tP[Xt]E[X]P[Xt]E[X]t

ここで1個だけ「うん?」ってなるのが2行目から3行目の左辺ですね。これは定義に従って計算すればよいです。Eの中身は、Xtより大きければt、そうでなければ0となるような確率変数です。これを踏まえると

E[tI[Xt]]=t×P[Xt]+0×P[X<t]=tP[Xt]

です。単純な場合分けです。具体的な積分とか総和とか確率変数が連続だとか考えなくても通用しますね。以上で完全にMarkovの不等式が示せました。極めて初等的な操作だけしかやっていませんね。

チェビシェフの不等式(Chebyshev's inequality)

同じように、Xを確率変数とします。μ=E[X]を確率変数の平均値とすると次が成り立つ。

P[|Xμ|t]var[X]t2

var[X]は確率変数Xの分散でE[(Xμ)2]と同じ。これをChebyshevの不等式という。これを示す。

やることは全く同じです。まずはt2I[|Xμ|t](Xμ)2を確認しましょう。先ほどと同じように図を書いてみます。すると次のようになります。

X^2とt^21(X\ge t)の比較

同じですね。青が左辺で赤が右辺をYとおいたもの。この図ではμ=0で、t=2ですね。常に赤は青以上です。これで示せたも当然です。念のために些細な式変形を書き下しておくと次です。

t2I[|Xμ|t](Xμ)2E[t2I[|Xμ|t]E[(Xμ)2]t2P[|Xμ|t]var[X]P[|Xμ|t]var[X]t2

以上でChebyshevの不等式が示せました。両者は名前は違うけどほとんど同じものだということがわかりました。これなら他の不等式をもとにして確率と期待値に関する不等式が作れそうと思うでしょう。実際できます。

チェビシェフの一般化

チェビシェフの不等式で「2乗」としていたところをk乗にしても成立することは容易に確かめられます。当然ながら2乗のときにはなかった右辺の絶対値記号は必要です。

P[|Xμ|t]E[|Xμ|k]tk

がさっきと同じ設定で成立する。ただしk0kゼロはまあ意味ないけど間違ってないので入れておく。

右辺は確率変数Xの平均周りのk次モーメントです。一般的に存在するわけではありませんが存在するならこの手の不等式が成立するってことです。次に思いつくのはもっと他の、多項式以外の|Xμ|に関する関数を考えることです。多項式以外の初等関数というと指数関数とかです。そうです。指数関数について考えます。

Chernoff型の不等式

E[eλ(Xμ)]という値があるλ[0,b]で存在するとする。このとき次式が成立。

P[(Xμ)t]infλ[0,b]E[eλ(Xμ)]eλt

E[eλ(Xμ)]はモーメント母関数といわれています。この形式の不等式をChernoff型の不等式といいます。実際には、Xに関するいろいろな仮定で右辺はより具体的になるのでここでは「型の」といっておきます。これを示すことは簡単です。これまでの議論を関数Y=eλ(Xμ)に対して適用すればよいです。同じようにしてPの内側だけ0に落ちるような関数との比較からスタートすればいい。

右辺を具体的に計算するにあたって、両辺の対数を取った次の形式が用いられることがあります。

logP[(Xμ)t]infλ[0,b]{logE[eλ(Xμ)]λt}

チェビシェフ一般化とChernoffの関係

前述のChebyshevの不等式を一般化した多項式モーメントの式と、Chernoff型の不等式は左辺が同じものです。おっと、Chebyshevの方には絶対値がついているのでここではXμ>0とでもしておく。Markovの不等式では実はX0としていたのでそれと同じようなもん。

話を戻すと、左辺が同じ不等式ならどっちかが有効でどっちかが冗長なはずです。つまりどっちが等号成立により近いか、あるいはtightであるかsharpであるかなどといったりします。なのでここではChernoff型とChebyshevの不等式を一般化した多項式モーメントの不等式の、どちらが有効なのかを見てみましょう。結論からいうとkを最適に選べばChernoff型が多項式モーメントよりもtightになることはありません。

でもChernoffの方が右辺が計算しやすいとか何とかで応用所よく使われるそうです。

つづき

XN(μ,σ2)としたとき、つまりXが正規分布に従うとした場合Chernoff型の不等式の右辺は具体的にどうなるか?

余談

ここまで読んでなんでChebyshevとかチェビシェフとか統一しやんねんと思った人挙手。

参考文献

Martin J. Wainwright, High-Dimensional Statistics, A Non-Asymptotic Viewpoint, 2019, Cambridge University Press, pp. 21-22, https://doi.org/10.1017/9781108627771.