条件付き確率の学習

: グラフ構造の学習 : ベイジアンネットワークの学習 : ベイジアンネットワークの学習

条件付き確率の学習

学習に用いるデータセットが確率変数の取り得る全ての組合せについての事例を含んでいる場合は完全データと呼ばれ，この場合にはCPTの全ての項を埋めることができる．簡単のため確率変数が真偽二値とすると，親ノード群 $\pi(X_j)$ がある値をとる全ての事例数を

とし，さらにそのうち

が真であった事例数を

とする．仮に真の確率が $P(X_j = 1\vert\pi(X_j)) = \theta^*$ であったとすると，この観測結果が得られる確率は ${}_NC_n{\theta^*} ^n (1-{\theta^*})^{N-n}$ になる．この $\theta^*$ を

から推定したい．データの数が多く，

が十分大きい場合には，漸近一致性を持つ最尤推定量 $\tilde{\theta} = n/N$ を点推定量として使う．ただし事例数が少ないときには最尤推定量と真の確率の値がそれほど近くならない場合がある．その場合には点推定量ではなくベイズ的に $\theta^*$ として想定できる確率分布を考える．具体的にはこれが

から次のベータ事前分布(一般の離散多値の変数の場合はDirichlet事前分布)

$\begin{displaymath} \frac{1}{B(n+1,N-n+1)} \theta^{n}(1-\theta)^{N-n}, \end{displaymath}$

(5)

（

はベータ関数）から定まると考える [Spiegelhalter 93,Heckerman 95,Geiger 95]．確率変数が連続値である場合は，先に述べたように条件付き確率分布がパラメトリックな関数として表わされるため，条件付き確率の学習はデータからのパラメータ推定の問題に帰着される．

データが全ての起こり得る組合せを含まなかったり，観測されない変数（隠れ変数）を含む場合には不完全データと呼ばれる．このときにはまず，未観測データについての確率分布を推定し，さらにその分布によって期待値計算を行なうことが考えられる．この計算のためにマルコフ連鎖モンテカルロ法やEMアルゴリズム[Dempster 77]などの手法が適用される．

平成13年1月24日