Reference Chapter4. of Non-convex Optimization for Machine Learning https://arxiv.org/abs/1712.07897 "Alternating Minimization".
前ページ、一般的な交互最小化の収束性についての続きです。
補題1 Bistable Pointの必要十分条件
関数が連続微分可能で、それぞれの変数について周辺凸関数であるとき、点がbistableであることとであることは同値。
Proof : bistableならは明らか。不安なら前ページのProp. 1、 Prop. 2なんかの分解を参照せよ。逆は、まずについての周辺凸性の定義より
で右辺は仮定がなのでゼロ。従ってが任意のについて成立するのではmOPTの点、同じようにもについての周辺凸性よりmOPTの点であることが言える。よってbistableで逆も成立。
定義6 (Robust Bistability Property)
関数が-robust bistabeであるとは、あるがあって任意のについて
を満たすこと。ただし、はを満たす点、はmOPT、mOPTである。
補題2 (Robust Bistability Property under -MSC、-MSS)
連続微分可能な関数が-MSC、-MSSであり、-robust bistableであるとき任意のについて
を満たす。ただし、はを満たす点、はmOPT、mOPTである。
Proof : -MSC性より
ちなみにゼロ、のところはによる。2式を足し合わせることによる
まったく同じようにして、-MSS性より
なので
がわかる。ちなみにこっちのゼロはによります。これらを-robust stabilityの定義式にそのまま入れると主張の式が得られる。
定理:補題2の条件を満たす(凸とは限らない)関数に対する交互最小化は収束する
凸関数とは限らない連続微分可能な関数が、領域においてそれぞれの変数について-MSC、-MSSかつ-robust stabilityを満たすとする。このとき、からスタートした交互最小化は多くともステップでとすることができる。
証明) 今度はとおく。このを示すことが出来ればok。-MSS性においてを使うことにより
を得る。ちなみに勾配がゼロはがbistableであることから従う。さらに、交互最小化の手順よりmOPTであることが保証されているので
一見するとの関数値が一番小さいような気がしますがとの組み合わせではの関数値の方が小さいということです。次に-MSC性において同様にを用いることにより次を得る。ちなみにこちらの勾配がゼロというのはmOPTであることから従う。
1行目が-MSC性、2行目は同様にmOPTであることから従う。両辺からを引いてつかって表すと
がわかる。次に補題2の式を使う。まず
が右辺第2項が正であることから従い、この右辺は補題2の左辺であるのでさらに上からおさえられる。よって、
さらに、交互最小化の手順よりmOPTだから右辺第2項は消える。さらに、mOPTからはに書き換えられる。まとめると
がわかる。最後にと-MSSの式から
2行目にかけて、直前のの不等式を用いている。さらに、その次の不等式でとの不等式をつかっている。これをについて整理すると
という形にできる。ここで
とおいた。
であるので、からにおいて右辺はゼロに行く。従って。ついでにオーダについては、みたいな感じからぽいことがわかる。一応でlogの符号変わることに注意。