Reference Chapter4. of Non-convex Optimization for Machine Learning https://arxiv.org/abs/1712.07897 "Alternating Minimization".
多変数関数における変数の分割
関数を目的関数とする最小化問題について考える。なるを用いて関数をと見なすことが出来る。これは変数の内個のサブセットを取ってきて変数を分割しただけ。残った変数個をまた別な変数とおく。これをとして新たにとおく。よりたくさんの変数に分割する場合にも2分割を繰り返せばよいので一般性を失っていない。制約集合による条件を考えてもよい。一般にはそれぞれの制約集合が独立にな条件で与えられているとは限らないのでという形になることに注意せよ。
本稿では基本的にベクトルの成分をいじくらないことから、混同のおそれが無く変数がベクトルであっても細字で記載するものとする。
定義1 (結合凸性 : Joint Convexity)
を連続微分可能とする。このとき、 任意のについて
を満たすとき、は結合凸であるという。
定義2 (周辺凸性 : Marginal Convexity)
を連続微分可能とする。このとき、 任意のについて、というについての関数が凸であるとき、すなわち
を任意のについて満たすとき、はについて周辺凸であるという。
Prop. 1 : 結合凸関数であれば任意の変数の部分集合について周辺凸関数である
Proof : 結合凸性の定義の右辺は
と書き直せる。結合凸関数においては、任意のについてこれが成り立っているからと取れば第3項はゼロ、直ちに周辺凸性の定義が従う。
定義3 (周辺強凸関数、周辺強?関数 : Marginally Strongly Convex/Smooth Function)
を連続微分可能とする。このとき、任意のについて、というについての関数が-Strongly Convex : SC、-Strongly Smooth : SSであるとき、すなわち
を任意のについて満たすとき、関数はについてそれぞれ-Marginally Strongly Convex : MSC、-Marginally Strongly Smooth : MSSであるという。なお、それぞれの日本語は-周辺強凸性、-周辺強なんとか性。なんとかの部分は不明。
Prop. 2 : -SC、-SSであれば任意の変数の部分集合について-MSC、-MSS
Proof : Prop. 1に同じである。念のため結合したものにあたる定義を書き下しておくと、
となり
としてと取ればこれらの右辺第2項はゼロ、直ちに-MSC、-MSSの定義が従う。
交互最小化:Alternating Minimization
関数を最小化するを求めたいとして、次の手順を踏む。
- を適当に初期化する
- についてこれを繰り返す
- を出力とする
定義4 (Marginally Optimum Coordinate)
関数を上の関数とする。が、固定されたあるについてを満たすような点であるときをについての周辺最適点といい、そのような点の集合をmOPTと表記する。同じようにについてもについての周辺最適点による集合をmOPTと表記する。
Remark : Coordinateとあるが、最適点や点の集合に対して「座標」は不適切であるので無視。
定義5 (Bistable Point)
関数を上の関数とする。点がmOPTかつmOPTを満たすとき、bistableな点であるという。
Remark: Bistableを日本語にすることを諦めた。
定理1:それぞれの変数について強くなめらかな結合凸関数に対する交互最小化は収束する
を連続微分可能な結合凸関数とし、それぞれの変数についての-MSS性を満たすとする。また:最適値が下に有界、は有界領域とする。このとき、から上記の交互最小化の手続きを行うと、多くともステップでを満たすことができる。
証明) 交互最小化を行っていることからただちに、
とこの単調減少性より任意のについてがわかる。有界領域としている上を動くため、も有界であり発散しない。とすると常に、さらにであれば最適値への収束が言える。
とする。周辺最小化を勾配降下によって行うときにある1ステップを次のように書く。
周辺Strongly Smooth性から
は、周辺最小化の結果を求めるときのある1ステップ後の結果であり、最終的な結果における関数値はその途中よりも必ず小さい。従ってで、この右辺がさらに1つ上の式よりも小さい。
さらに、いまとしていて1つ前のステップでと決めていたのでが成り立っており、
が成立。
関数の結合凸性より
さらに、で、は有界であるのでその差のノルムも有界となる。よって、ある定数を用いてとできる。Cauchy-Schwartzの不等式より
これらを一旦まとめて
これを先の不等式に代入することにより
をつかってこれらを書き直すと
さらにを右辺第2項の分母のの1個目だけに使って大小関係に注意すると
がわかる。ここで再びよりを両辺に掛けると
最後に、
という感じにして両辺足し合わせることにより
がいえる。に注意せよ。を戻して分母分子掛けると
なのでざっくりぽいことが言えた。オーダがどうこうはめんどくさいので説明しません。
次ページ、一般的な交互最小化の収束性について(2)につづく。