Radial Basis Boltzmann Machine (RBBM)

$\begin{displaymath} p(\mbox{\boldmath$x$};\ W;\ \beta) = {1\over K}\sum_{k=1}^K ... ...\beta\,\Vert\mbox{\boldmath$x$}-\mbox{\boldmath$w$}_k\Vert^2). \end{displaymath}$

(4.1)

このモデルは Rose ら[75] によって階層的クラスタリングの統計物理モデルとして導入されたものであるが，これを Radial Basis Boltzmann Machine (RBBM) と呼ぶことにする． RBBM はもともと Kappen[44,45,61] が，2 値出力の確率的動作を行うニュ－ラルネットワークモデルであるボルツマンマシンを連続値も扱えるように拡張するものとして提案した．式 (4.1) のモデルはその特殊な場合として定義されるが，本論文ではこのモデルのみを扱うので RBBM といえば式 (4.1) のモデルを指すことにする．

3.3 で述べたように，混合分布には冗長性や特異性がある． RBBM では，クラス事前分布を定数におくことによって，クラス事前分布に関する冗長性を排除する．また，分散を制御パラメータとして固定して考えることにより，尤度が無限大になるという無意味な局所解をなくすようにしている．更に RBBM では分散共分散行列の等方性を仮定しているが，これは主に解析の簡単さのためであり，定性的には一般の分散共分散行列についても同様の性質が成り立っていると考える．

図: 分岐点での最尤解の例. 横軸: $\log(\beta)$ ; 縦軸: および . 点は各温度での最尤解右端の `' が学習サンプルをあらわす
$\begin{figure}\begin{center} \leavevmode \epsfile{file=rbbm/fig1.ps,height=.5\textheight} \end{center}\end{figure}$

さて， $\beta$ を変化させたときの最尤解の振舞いの例を図4.1 に示す．最尤解を求めるのには EM アルゴリズムを用いた(したがって部分的には局所最適解に収束している可能性がある)．訓練サンプルは 1 次元上の二つの分布

，

からそれぞれ 1/2 の等確率で 100 個生成した．ここで，

は

上の一様分布， $N[\mu,v]$ は平均 $\mu$ ，分散

の正規分布を表す．混合分布の要素数は

とした．

図からもわかるように，RBBM モデルは $\beta$ を制御パラメータとする階層的クラスタリングと同様の構造が現われる．小さな $\beta$ では最尤解は $\mbox{\boldmath$w$}_1=\mbox{\boldmath$w$}_2=\cdots=\mbox{\boldmath$w$}_K$ を満たしており，全体が一つのクラスタとなっている． $\beta$ を次第に大きくして行くと，ある $\beta$ でそのクラスタは相転移を起こし，いくつかの部分に分岐する． $\beta$ を更に大きい値にしていくと分岐が再帰的に起きる．従って，正規分布の要素数は温度を調節することによって制御できる．つまり，要素分布の総数は

であるにもかかわらず，実際には $\beta$ の値に応じて，より少ない数の要素分布が使われることになる．以上の理由から，以下の議論では

は十分大きいとしてよい．すると結局，このモデルでは複雑度は $\beta$ のみに依存して制御される．

次の節に進む前に，RBBM モデルの背景について少し補足しておく．先にも書いた通り，このモデルはクラスタリングの統計物理モデルとして，またボルツマンマシンの拡張として提案されたものであり，いずれにしても統計物理的な背景を持つ．もともと 1980 年頃からニュ－ラルネットワークの研究が盛んになったときに，Hopfield がスピングラスモデルとニュ－ラルネットワークとの類似性を指摘し，その後 Geman and Geman が Ising モデルに基づいた画像モデルを提案して画像修復に適用したり，最近では符号化の問題との関連も研究されるなど，統計物理と情報処理の分野の距離が急速に縮まっていった[81,62]．これらのモデルは，エネルギー関数の平衡状態を複数持ち，温度や秩序パラメータの変化によって相転移を起こすなど，統計力学的にも興味深い現象を示す．最尤推定の局所最適解が複数あり，それが温度を調節することにより相転移を起こす RBBM モデルも，まさにそのような流れで生まれて来たものである．