とある数学の問題と解答のメモ234

/ Math Exercise

問題

(1) 確率変数\(Z_i=(X_i,Y_i), i=1,2,\dots,n\)は独立に次のように定義される確率分布に従う。各\(X_i,Y_i\)は0または1を値にとり、\(P(X_i=1)=\alpha,\ P(Y_i=1|X_i)=\beta X_i\)とする(一般に\(X_i\)\(Y_i\)は独立ではない)。ただし\(n\)は正の整数、\(0<\alpha<1,\ 0<\beta<1\)は未知パラメータである。このとき以下の設問に答えなさい。

(1-1) 同時確率\(P(X_i=x,Y_i=y)\)\((x,y)\)の取りうるすべての値について求めなさい。ただし\(\alpha,\beta\)を用いること。

(1-2) \(Z_i,\ i=1,2,\dots,n\)をすべて用いて、\(\alpha,\beta\)の最尤推定量\(\hat\alpha_n,\hat\beta_n\)を求めなさい。

(1-3) 制約条件\(\alpha+\beta=1\)を仮定する。このとき\(Z_i,\ i=1,2,\dots,n\)をすべて用いて、\(\alpha\)の最尤推定量\(\hat\alpha_n\)を求めなさい。

(1-4) 設問(1-3)の\(\hat\alpha_n\)は極限\(n\to\infty\)においてある値に収束する。その値を求めなさい。

(2) 袋の中に\(N, (N=1,2,\dots)\)個のボールがあり、そのうち\(m, (m\in\{0,1,\dots,N\})\)個は赤色、残りは白色である。袋から、ランダムかつ同時に\(n, (n\in\{1,\dots,N\})\)個取り出した際にその中で赤色であるボールの個数を確率変数\(X, (X\in\{0,1,\dots,n\})\)で表すことにする。以下の設問に答えよ。

(2-1) \(X=k, (k=0,1,\dots,n)\)となる確率\(P(X=k)\)を求めよ。

(2-2) 確率変数\(X\)の期待値を求めなさい。

袋の中に白いボールが多数入っている。その個数がわからないので未知パラメータ\(N\)とおき、これを以下の手続きで見積もることにした。まず、袋の中からランダムかつ同時に\(m\)個を取り出し赤く塗った。それらを袋に戻してよくかきまぜた。その後、今度は袋の中からランダムかつ同時に\(n\)個のボールを取り出したところ、そのうち\(k \in\{0,1,\dots,n\}\)個が赤く塗られていた。\(N,m,n\)は正の整数である。以下の設問に答えよ。

(2-3) \(N\)に関する尤度\(L(N)\)を求めなさい。

(2-4) 設問(2-3)の\(L(N)\)について、\(L(N)/L(N-1)\)、ただし\(N=2,3,\dots\)、を計算しなさい。

(2-5) \(N\)の最尤推定値を求めなさい。ただし\(k\ge 1\)とする。

解答

(1-1) \((x,y)=(0,0),(0,1),(1,0),(1,1)\)が全ての取りうる値。

\[ \begin{align} P((X_i,Y_i)=(0,0))&=P(X_i=0)P(Y_i=0|X_i=0)=(1-\alpha)\times 1=1-\alpha\\ P((X_i,Y_i)=(0,1))&=P(X_i=0)P(Y_i=1|X_i=0)=(1-\alpha)\times 0=0\\ P((X_i,Y_i)=(1,0))&=P(X_i=1)P(Y_i=0|X_i=1)=\alpha(1-\beta)\\ P((X_i,Y_i)=(1,1))&=P(X_i=1)P(Y_i=1|X_i=1)=\alpha\beta \end{align}\]

念のため全部足して\(1\)になるかどうか確認しておくと

\[ 1-\alpha+\alpha(1-\beta)+\alpha\beta=1\]

でok。

(1-2) 対数尤度を\(\alpha,\beta\)で微分してゼロとく。まずは対数を取る前の尤度を書き下すと

\[ l(\alpha,\beta;\{Z_i\})=\prod_{i=1}^n(1-\alpha)^{(1-X_i)(1-Y_i)}(\alpha\beta)^{X_iY_i}\{\alpha(1-\beta)\}^{X_i(1-Y_i)}\]

対数尤度はこれの対数を取ったもの。

\[ \begin{align} \log &l(\alpha,\beta;\{Z_i\})\\ &=\sum_{i=1}^n[(1-X_i)(1-Y_i)\log(1-\alpha)+X_iY_i\log(\alpha\beta)+X_i(1-Y_i)\log\alpha(1-\beta)]\\ &=\sum_{i=1}^n[(1-X_i)(1-Y_i)\log(1-\alpha)+X_iY_i(\log\alpha+\log\beta)+\\ &\quad\quad X_i\log\alpha-X_iY_i\log\alpha+X_i(1-Y_i)\log(1-\beta)]\\ &=\sum_{i=1}^n[(1-X_i)(1-Y_i)\log(1-\alpha)+X_iY_i\log\beta+X_i\log\alpha+X_i(1-Y_i)\log(1-\beta)] \end{align}\]

キレイになったのかどうかはわからない。とりあえず項がひとつは消えた。まず\(\alpha\)で微分する。

\[ \begin{align} \frac{\partial \log l(\alpha,\beta)}{\partial \alpha}&=\sum_{i=1}^n\left[\frac{(1-X_i)(1-Y_i)}{\alpha-1}+\frac{X_i}{\alpha}\right]\\ &=\frac{1}{\alpha-1}\sum_{i=1}^n(1-X_i)(1-Y_i)+\frac1\alpha\sum_{i=1}^nX_i=0\\ 0&=\alpha\sum_{i=1}^n(1-X_i)(1-Y_i)+(\alpha-1)\sum_{i=1}^nX_i\\ \alpha&=\left(\sum_{i=1}^nX_i\right)/\left(\sum_{i=1}^n(1-X_i)(1-Y_i)+\sum_{i=1}^nX_i\right)=\hat\alpha_n \end{align}\]

次に\(\beta\)で微分する。

\[ \begin{align} \frac{\partial \log l(\alpha,\beta)}{\partial \beta}&=\sum_{i=1}^n\left[\frac{X_iY_i}{\beta}+\frac{X_i(1-Y_i)}{\beta-1}\right]\\ &=\frac1\beta\sum_{i=1}^nX_iY_i+\frac1{\beta-1}\sum_{i=1}^nX_i(1-Y_i)=0\\ 0&=(\beta-1)\sum_{i=1}^nX_iY_i+\beta\sum_{i=1}^nX_i(1-Y_i)\\ \beta&=\left(\sum_{i=1}^nX_iY_i\right)/\left(\sum_{i=1}^nX_i(1-Y_i)+\sum_{i=1}^nX_iY_i\right)=\hat\beta_n \end{align}\]

どちらも似たような式が出てきた。1以下になることは式形から確かめられる。

(1-3) ラグランジュの未定乗数法を使う。\(g(\alpha,\beta)=1-\alpha-\beta=0\)を条件としてラグランジュ関数を次のように取る。

\[ L(\alpha,\beta)=\log l(\alpha,\beta)-\lambda g(\alpha,\beta)\]

同じように\(\alpha,\beta\)で微分してゼロとおけばよいのだが第1項は前の問題と同じである。

\[ \begin{align} \frac{\partial L(\alpha,\beta)}{\partial\alpha}&=\frac1{\alpha-1}\sum_{i=1}^n(1-X_i)(1-Y_i)+\frac1\alpha\sum_{i=1}^nX_i+\lambda=0\\ \frac{\partial L(\alpha,\beta)}{\partial \beta}&=\frac1\beta\sum_{i=1}^nX_iY_i+\frac1{\beta-1}\sum_{i=1}^nX_i(1-Y_i)+\lambda=0 \end{align}\]

ここまでくればあとは方程式を解くだけの問題になる。\(\lambda\)でつないで\(\beta=1-\alpha\)を入れる。

\[ \frac1{\alpha-1}\sum_{i=1}^n(1-X_i)(1-Y_i)+\frac1\alpha\sum_{i=1}^nX_i=\frac1\beta\sum_{i=1}^nX_iY_i+\frac1{\beta-1}\sum_{i=1}^nX_i(1-Y_i)\\ \frac1{\alpha-1}\left(\sum_{i=1}^n(1-X_i)(1-Y_i)+\sum_{i=1}^nX_iY_i\right)+\frac1\alpha\left(\sum_{i=1}^nX_i+\sum_{i=1}^nX_i(1-Y_i)\right)=0\\ \alpha\left(\sum_{i=1}^n(1-X_i)(1-Y_i)+\sum_{i=1}^nX_iY_i\right)+(\alpha-1)\left(\sum_{i=1}^nX_i+\sum_{i=1}^nX_i(1-Y_i)\right)=0\\ \alpha=\frac{\sum_{i=1}^nX_i+\sum_{i=1}^nX_i(1-Y_i)}{\sum_{i=1}^n(1-X_i)(1-Y_i)+\sum_{i=1}^nX_iY_i+\sum_{i=1}^nX_i+\sum_{i=1}^nX_i(1-Y_i)}=\hat\alpha_n\]

これが条件のもとでの最尤推定量。

(1-4) 前問の式の分母分子を\(n\)で割る。するとそれぞれの項は設問(1-1)で求めた確率に収束する。つまり\(n\to\infty\)において

\[ \begin{align} \frac1n\sum_{i=1}^nX_i(1-Y_i)&\to P((X_i,Y_i)=(1,0))=\alpha(1-\beta)\\ \frac1n\sum_{i=1}^n(1-X_i)(1-Y_i)&\to P((X_i,Y_i)=(0,0))=1-\alpha\\ \frac1n\sum_{i=1}^nX_iY_i&\to P((X_i,Y_i)=(1,1))=\alpha\beta\\ \frac1n\sum_{i=1}^nX_i&\to P(X_i=1)=\alpha\\ \end{align}\]

これを代入すると

\[ \begin{align} \hat\alpha_n&\to\frac{\alpha+\alpha(1-\beta)}{1-\alpha+\alpha\beta+\alpha+\alpha(1-\beta)}\\ &=\frac{\alpha+\alpha(1-(1-\alpha))}{1+\alpha}\\ &=\frac{\alpha(1+\alpha)}{1+\alpha}=\alpha \end{align}\]

となる。条件付きではあれど最尤推定量なのでこうなっていてくれると安心する。こういうことが起こる理由は抽象的なパラメータ空間の図を描くとわかりやすいんだろうけどいちいち説明しない。

(2-1) ランダムかつ同時に取り出すのだから\(m/N\)の確率で赤を引くと考えればよい。通常の2項分布になる。(本当か?\((\binom{m}{k}+\binom{N-m}{n-k})/\binom{N}{n}\)とかしなくていいんか?)

\[ P(X=k)=\binom{n}{k}\left(\frac{m}N\right)^k\left(1-\frac{m}N\right)^{n-k}\]

(2-2) 試行回数\(n\)で確率\(p\)の二項分布の期待値は\(np\)と覚えて置く。これを用いると\(X\)の期待値は\(nm/N\)となる。

(2-3) ここでの尤度の意味は結果が\(k\)であったときにボールの総数が\(N\)である確率のこと。前問の\(P(X=k)\)はここでは\(P(X=k\ |\ N)\)と見ることが出来てこれを\(N\)の関数と見なしたものが尤度関数そのもの。

\[ L(N)=P(X=k\ |\ N)=\left(\begin{matrix}n\\k\end{matrix}\right)\left(\frac{m}N\right)^k\left(1-\frac{m}N\right)^{n-k}\]

(2-4) 先頭の二項係数は打ち消しあう。素朴に書き下すだけ。

\[ \begin{align} \frac{L(N)}{L(N-1)}&=\frac{m^k(N-m)^{n-k}}{N^n}\cdot\frac{(N-1)^n}{m^k(N-1-m)^{n-k}}\\ &=\left(\frac{N-1}N\right)^n\frac{(N-m)^{n-k}}{(N-1-m)^{n-k}}\\ &=\left(\frac{N-1}N\right)^n\left(\frac{N-m}{N-1-m}\right)^{n-k} \end{align}\]

(2-5) 普通に対数尤度を微分する。

\[ \begin{align} \log L(N)&=\log\binom{n}{k}+k\log\frac{m}N+(n-k)\log\left(\frac{N-m}N\right)\\ \frac{\partial}{\partial N}\log L(N)&= -\frac{k}N+(n-k)\left(\frac{1}{N-m}-\frac1N\right)\\ 0&=-\frac kN+\frac{(n-k)m}{N(N-m)}\\ 0&=k(N-m)+(n-k)m\\ N&=\frac{nm}{k}=:\hat{N} \end{align}\]

これで最尤推定値は\(nm/k\)とわかった。でも\(nm\)\(k\)で割り切れるとは限らないので一般に\(nm/k\)は有理数となる。なので自然数にするには切り上げるか切り下げるかしないといけない。多分\(L(N)/L(N-1)\)\(\hat N\)を代入して1より大きいかとか小さいかとかやるんでしょうが省略する。