> 産業技術総合研究所 > 一杉裕志 > 全脳アーキテクチャ解明に向けて > . 2014-04-04 更新)

全脳アーキテクチャの見取り図

私が現時点で考える、全脳アーキテクチャの見取り図について取り急ぎ説明します。

脳の主要な器官の機能とモデル」のページでは 計算論的神経科学の分野において受け入れられている(と私が考えている)モデルを いくつか紹介しました。 このページではより踏み込んで、私が考える推測(speculation)について述べます。 私自身はここで述べる見取り図は全脳アーキテクチャの解明・実現にとって 非常に有用であると考えています。

批判・コメント・質問など歓迎いたします。

脳全体の目的

私は「脳全体の目的は報酬期待値最大化である」という指導原理(作業仮説)に 基づいて脳のリバースエンジニアリングを進めている。 この指導原理は、いまのところ私にとって非常に役立っている。 脳のアーキテクチャの候補を絞り込むのに大変役立つからである。

この指導原理に対しては様々な批判があり得る。 「脳は単一の目的関数の最適化ではなく多目的最適化を行うのではないか」 「脳は必ずしも報酬期待値最大化にならない振る舞いをすることがあるのではないか」 などである。 私としてはこれらの批判の一部には同意するところもあるし 反論できるところもある。 いずれにせよ、報酬期待値最大化が脳の動作を少なくとも近似的には説明する という点については、同意する研究者は多いのではないだろうか。

行動装置と評価装置

脳全体は、大きく行動装置評価装置の2つの部分に分かれると私は考えている (「脳の情報処理原理の解明状況」の p.61 参照)。

行動装置は強化学習を使って合理的な意思決定・運動制御を行う部分であり、 評価装置は行動の結果を生物の「確実に子孫を残す」という目的に照らし合わせて 評価し、結果を報酬信号として行動装置に出力する部分である。

脳の扁桃体や視床下部あたりが評価装置であり、それ以外の脳の大部分が行動装置である。 脳がどのような評価装置を持っているのか、また役に立つロボットを作るには どのように評価装置を設計すればよいのかは、非常に興味深い問題である。 当面は、強い物理的刺激を検出すれば負の報酬を出力し、 エサの獲得を検出すれば正の報酬を出力するというふうに 素朴に考えれば十分であろう。

解明の優先度が高いのは行動装置の方であると思われる。 以下では行動装置に関する私の推測について述べる。

行動価値関数のモデル

[Ichisugi 2012] に書いたように、これまでの計算論的神経科学の知見 (特に大脳皮質ベイジアンネットモデル)などを踏まえると、 脳は行動価値関数を下記のようなベイジアンネットの形で 保持しているのではないか私は考えている。

P(Q,S,A,V) = P(S|Q)P(A|Q)P(V|Q)P(Q)

ただし、Qは隠れ変数、Sは外界の状態、Aは行動、Vは価値である。 詳しくは上記論文を参照されたい。 (なお、実際の脳内では、Q、S、Aは膨大な数の確率変数に分解されて表現される。) 行動価値関数の学習は、大脳皮質による教師なし学習と大脳基底核による強化学習の 組み合わせで行っていると考えている。

このモデルのもとで、外界の状態が s のときに報酬期待値を最大にする行動をとるには、

a = argmax_a P(V=1|s,a) = argmax_a { Σq P(q,s,aV=1) / ΣqΣv P(q,s,a,v) }

という式に従って行動 a を選択すればよい。 これを理想的意思決定と呼ぶことにする。

行動価値関数の学習も理想的意思決定も、素朴な実装では 過適合・局所解の問題と計算量の爆発の問題が生じる。 脳は進化の末獲得した巧妙な方法でこれらの問題を回避しているはずである。 以下に、その回避の方法に関する私の推測を述べる。

理想的意思決定の近似と思考

思考の目的は理想的意思決定の近似であると私は考えている。 上の式で示した通り、理想的意思決定は隠れ変数に対する周辺化が必要であり、 厳密計算は膨大な計算量を必要とする。 [Ichisugi 2012]では MPE (Most Probabile Explanation) で 近似できる場合があることを示したが、 それで常によい近似精度が得られるとは期待できない。

特に時系列も扱えるようにモデルを拡張した場合、 隠れ変数の周辺化は、無限の未来までにいたるあらゆる報酬期待値の 総和を必要とすることになるだろう。 これは無限の計算量を必要としてしまう。

そこで考えられる近似計算の方法の1つにモンテカルロ法がある。 様々な行動の選択肢を行った時にどのよう結果が起きてどのくらいの報酬が得られるかを 繰り返しシミュレーションし、 最も報酬期待値が大きい行動を、理想的意思決定の近似解として用いればよい。 モンテカルロ法は生物にとって、計算時間と精度を選択できるというメリットがある。 高い精度が必要な時や時間が余裕があるときには長い時間をかけて シミュレーションを行い、 精度が不要か時間が差し迫っているときには短い時間で行えばよい。

以上の考察から、「ヒトや動物の思考の機構は、 現実的には計算不可能な理想的意思決定を、 モンテカルロ法(のようなもの)で近似するためにある」という 仮説が浮かび上がる。

この仮説によれば、 子供が2つのお菓子のうちどれかを1つを選ばなければならない時、 何度も「どれにしようかな」と繰り返したり、 ネコが離れた場所に飛び移る時に時間をかけて間合いを測っているときなどは、 脳内で報酬期待値をモンテカルロシミュレーションしている、 ということになる。

思考の機構の実現には、ベイジアンネットの外側に様々な機構を 作り込む必要があると考えている。 現時点で考察したことについては下記の資料を参照されたい。

「脳における思考の役割とその実現機構についての考察」

大脳皮質と海馬

海馬と皮質はどちらも行動価値関数 P(Q,S,A,V) の記憶場所の一部であり、 組織が分かれているのは、 異なる特性を持った機械学習アルゴリズムを組み合わせた方が効率的だからではないだろうか。 海馬は外界の事実を短時間で比較的正確に記憶できる高コストの器官で、 皮質は圧縮率の高い器官である。

海馬から皮質への記憶の転送に関する考察については、 下記資料を参照されたい。

「海馬と大脳皮質感覚連合野の相互連携のモデルの構想」

時系列学習

脳が時系列学習をやっているのは間違いないが、 一般にコストのかかる時系列学習をどのように効率的に行っているかは自明ではない。 現在のところ、私は以下のように考えている。

視覚野は、時系列学習をしない。もしくは非常に制限された時系列学習しかしない。 動きを認識するMT野・MST野は輝度の時間微分という静的な 情報を入力として受け取り学習するのであって、 時系列学習とは違うのではないかと思う。

一方で運動野は、複雑な運動時系列を学習する必要がある。 それには小脳との連携が関わっているのではないかと私は考えている。

おわりに

以上のように大脳皮質、大脳基底核、海馬、小脳、扁桃体、視床下部の、 全脳アーキテクチャにおける役割について、現時点での私の推測を述べた。

大脳皮質の領野のネットワークのアーキテクチャの解明も重要なのだが、 それについての推測については別の機会に述べる。


コメント、質問などお待ちしております。
一杉裕志のページ