では機械学習を幾何的に説明するとどのようになるだろうか. 一言で言えば,機械学習とは,データが与えられたとき, そのデータにうまくあてはまるモデルを見つけるという操作である. これは,分野によってシステム同定,統計的推定などと呼ばれるものと 基本的に同じである.
この操作を絵で描けば,図1のようになる. 候補となるモデルの集合は,何らかのパラメータで表される空間を なしている. 一方,データの方は必ずしもモデルに完全に フィットするわけではないのでその外の空間の点であらわそう. すると,データに最もよくあてはまるモデルを見つけるには, データ点からモデルの空間にまっすぐ射影を下ろしてやればよい. モデルの空間が平らならば射影も易しいだろうし,ぐにゃぐにゃと曲がって いれば射影を下ろすのも大変だろう.
以上が,機械学習の幾何的解釈の大ざっぱな説明である. しかしながら,図に書いた空間に「構造」を入れてやらないと, それ以上深い議論ができない. 我々に最も身近なのはユークリッド空間 である. それで済めば話は簡単だが,それではいろいろ不都合が 出てくる. 例えば,既存のシステムや統計モデルの推定法は 残念ながらユークリッド空間では解釈できない.
そこで登場するのが情報幾何というわけである. 情報幾何は確率分布の空間に(非ユークリッド的だが)「自然な」構造を導入する. すると,確率分布に基づくいろいろな分野,例えば統計学・情報理論・ システム理論の問題を統一的に扱うことができ,既存の推定法を説明したり, 異なる分野の関係を明らかにしたりできるようになる. そういう意味で,情報幾何は異分野間の共通言語的な役割をもつことが できる可能性がある. しかしながら,工学分野の人間にはなじみの薄い微分幾何という数学が ベースになっているため, 実際にはなかなかしきいが高いというのが現実であろう. そこで本稿では,情報幾何の概要を,数学的厳密性はある程度犠牲にして, できるだけ直感に訴える形で説明していきたい.