人工知能(階層時間記憶モデル) – 一般社団法人日本トランスライフ協会

脳の中で実現しているワイヤードロジックは一体どのようにして、外界を認識したり、運動を制御したり、行動を計画したりと言った高度な情報処理をやってのけているのでしょうか。これを知るためには大脳皮質の中で走っているアルゴリズム(処理方式)を解明する必要があります。世の中には人工知能に使われている様々な強力なアルゴリズムが存在しますが、ここではその一例として階層時間記憶モデル(Hierarchical Temporal Memory:HTM)という枠組みを紹介したいと思います。HTMのアルゴリズムは直感的に理解し易い上に、ディープラーニングのような数学的な枠組みからではなく、神経科学の実験的知見に深い洞察を加える事で誕生した理論です。従って脳の中で実際に起こっている重要な現象をより忠実に反映した理論である可能性が高く、そうした意味では人間の持つ知的な能力を機能的に模擬するだけではなく、その内部構造に対する深い理解を与える理論であるという事も言えます。HTM理論の提唱者であるNumenta社のジェフ・ホーキンスによると、早ければ2016年末にHTM理論は完成し、人類の歴史上初めて脳の計算原理を解明するという大きなマイルストーンが達成されると宣言しています。

HTM理論によると脳は世界を階層的かつ時間の流れとして捉えています。これが階層時間記憶モデルと名付けられている理由です。また心理学や生理学の教科書では長年、脳は感覚からの入力を受けて行動を生み出すブラックボックスであると教えられて来ましたが、ホーキンスによるとこれは大きな誤謬であり、根本的に間違った前提であるとしています。天動説のフレームワークからはいかなる物理学も発達しなかったように、脳の理論もそもそもの根本的な出発点が間違っていたために正しい理論が生まれて来なかったというのが彼の見解です。脳の理論におけるコペルニクス的転換は、脳は行動を生み出す装置(機構)ではなく、予測を生み出す機構であるという視点の転換にあります。脳が予測を行うためのコンピュータであるという前提に対しては、ホーキンスだけではなく脳型コンピュータ(基礎編)でも取り上げた、神経模倣アーキテクチャや量子コンピュータの開祖であるカーバ・ミードも全く同じ主張をしています。地面が平らだったり、生き物は行動するために脳が必要と言う、我々にとって余りにも当たり前の直感が、根本的に間違った前提を植え付け、ものごとを深く理解する事を阻んでしまうのです。

これは脳の理論だけに限った事ではありません。我々の直感は、生き物は必ず死ぬ、人間と組み立てロボットが違うのと同じように、脳とコンピュータは全くの別物である、例え脳をコンピュータに移植出来たところでそれは自分ではない、という誰しもが当たり前だと感じる結論を導き、当たり前過ぎて我々はそれを全く疑いません。しかしコペルニクスやガリレオの時代の99%以上の人々の宇宙観が、現在の我々のものとは大きく異なっているように、技術的特異点以降の人類から見た時に、現在の99.99%の人類の直感が全く以って的外れだったという可能性は十分に起こりうるシナリオなのです。人間の習慣や直感は時に真実を捻じ曲げます。新しい発見をし、新しい世界を切り開いてきた先人達は、まず自分自身の動物的な直感に疑いを持ち、物理や数学の第一原理に立ち返って、目に見える表面的な現象の背後にある構造を捉える事で、こうした根本的な誤謬を克服して来ました。過去に何度もそうであったように、地動説、細菌やウィルス、飛行原理、DNA、原子論と言った発見は人類の常識を180度ひっくり返してしまうくらいの力を持っています。これと同じくらいインパクトのある価値観の転換が、シンギュラリティという形で今まさに我々の眼前に迫っているのです。

話が逸れましたが、脳は計算によって予測を生み出していると言う事と、その予測は特定の順序で特定のパターンが発生した時に、次に来るであろう入力パターンを予測するというものです。そしてこの特定のパターンというのが、階層構造と時間構造を持っています。分かりやすい例を使って説明したいと思います。脳のオリンピックと言われる世界記憶力選手権という大会が毎年開催されています。スピードナンバーと呼ばれる競技では5分間にどれだけ多くのランダムに生成された数字を記憶出来るかを競いますが、現在の世界記録は520桁です(2015年)。5分間で520桁の数字を1桁も間違う事なく記憶するのは、映像記憶能力などの特殊能力を使っているようにも思えますが、チャンピオン達の数を記憶する戦略は共通しており、普通の人でもトレーニングを積めば習得出来る方法です。この戦略が脳の動作原理を実に上手く利用しているのです。

まず選手は並んでいる数字の列を4桁毎に区切ります。4桁の数字で表されるパターンは0000から9999までの1万種類ありますが、選手達はこれら1万種類の全てのパターンに対して、憶えやすいシンボルを対応させて事前に記憶しています。例えば1225はクリスマスを表すと記憶します。0120はフリーダイヤルを連想するので電話、6741だとムナシイで例えば失恋のイメージ、1853は黒船が下田に来た年なのでペリー提督、といった感じで自分が憶え易いイメージを対応させてシンボルを記憶します。こうしたシンボルを繋げて行くと|1225|0120|6741|1853|の12桁の数字は|クリスマス|電話|失恋|ペリー|という対応に変換されます。後はこれらのシンボルを憶えやすいように繋げれば、「クリスマスに電話で失恋話をしているペリー提督」というストーリーがこの12桁の数字から浮かび上がってきます。12桁の数字を記憶するは大変ですが、クリスマスに電話で失恋話をしているペリー提督のイメージは絶対に忘れません。このようにして選手達は、自分で勝手に決めた1万通りの数字とシンボルとの対応を日々トレーニングしながら記憶します。これは子供がアルファベットやひらがなの連なりから単語を憶えるプロセスと一緒です。1万種類の単語が揃えば、後はそれらを繋ぎ合わせて創造的な文章とストーリーを作るだけです。このようにして選手は500桁近いただのランダムな数字列を元に、5分以内にストーリーを膨らませ、更にそれらのシンボルが登場した順番を正確に思い出す事で、1桁も間違える事なく数字を再生出来るのです。

では世界記憶力選手権で超人的なパフォーマンスを発揮するチャンピオン達が採用している数字を記憶するための戦略と、脳の動作原理との間にはどんな関係性があるのでしょうか。まず1つは階層性です。一番低次な階層の表現は数字です。次に4桁の数字を1つのシンボルに対応させる事で情報を圧縮し、階層を1つ上げています。更にその上の階層はシンボルを繋げて作るストーリーです。これらのストーリーに桃太郎や浦島太郎、かぐや姫というタイトルを付けるとメタストーリーが完成し、この要領で幾らでも階層を上げて行く事が出来ます。また逆に桃やサルやイヌ、キジといったシンボルに4桁の数字をあてがえば、桃太郎の話も一番低次のレイヤーでは最終的には全て数字の羅列に変換出来てしまうのです。

人間の網膜に当たる光も、鼓膜を震わせる空気の振動も、全て受容細胞で電気信号に変換されます。神経細胞は1秒間に0回から最大で200回くらいの神経パルスを送り出せます。つまり光や音の刺激は光子や空気振動という実体とは無関係に0~200Hzの間のデジタル信号に変換されます。網膜や鼓膜からの神経ケーブルが接続されている脳の視覚野や聴覚野が最初に受け取る情報は、まさに記憶力選手権のような0から200の間のただの数字の羅列なのです。異なる点は記憶力選手権の問題がランダムに生成された数字列であるのに対して、感覚器官から送られてくる数字(信号)列は外界の何らかの物理現象を反映しています(例えば光が強いとか音が大きいとか)。脳はまさにこの数字列のシートから4桁の数字を切り取るようにして、入力パターンを細かいセクションに区分けして行きます。

実際に網膜の場合には3億個くらいの光センサ(視細胞)が100万本の視神経のケーブルに信号を出力し、視床という中継器を経由して視覚野に信号を送ります。ここまでの処理で既に網膜に投影された映像はエッジ抽出という処理を施されて漫画のような線だけで描かれた線画に加工されています。視覚野に入ってくる信号はこの線画を表す数字の列として入ってくるのですが、視覚野ではこの数字の列を4桁の数字に分割したように、線画をメッシュ状に分割してそのメッシュの一つに対してその線分の傾きを検出します。これは4桁の数字を特定のシンボルに対応させたのと同じように、視覚野に入ってくる数字列の一部(ほとんどの場合は直線を表す)に特定の線分の傾きを対応させているのです。

音の場合には鼓膜の内側の蝸牛という長い管のような形をした器官で音を反響させ、その管の中で反響している音の周波数成分に対応した聴覚神経が信号を出力します。世の中の全ての音は特定の周波数の音の組み合わせとして合成する事が出来ます。実際に携帯電話の中では人間の音声をフーリエ変換という処理を施して20Hzから2万Hzくらいまでの周波数成分に分解して音を表現しています。これと同じように鼓膜でも音声信号は周波数成分に分解されて聴覚野に届きます。これは音声と言う複雑な表現を周波数と言うシンボルを複数使って表している事と同じです。

記憶力選手権ではシンボルを組み合わせてストーリーを作り上げていました。川、洗濯、桃、赤ちゃんというシンボルを繋げて、川に洗濯に行くと大きな桃が流れてきてその中から赤ちゃんが出てきた、と言った具合です。視覚や聴覚でももっと低次なレベルで同じような処理が行われていて、視覚ならばある傾きを持った線分を繋ぎ合わせて単純な図形を表現します。聴覚ならば周波数を組み合わせて母音や子音と言った音素の表現を作り出します。これらのシンボルを更に繋いでメタシンボルを作るとどんどん階層が上がって行き複雑なシンボルを表現する事が出来ます。例えば丸や楕円形や直線などの単純な図形の組み合わせで目や唇や鼻を表現する事が出来き、目や鼻や唇で顔を表現する事が出来ます。音の場合には音素を組み合わせて単語を表現出来き、単語を組みあせて長いストーリーの文章を作る事が出来ます。

このように脳は線分の傾きや周波数などの非常に低次な、数字で表現出来るようなシンボルを元にして、それらを何段階にも階層的に繋ぎ合わせる事で物体の形状や単語や文章などの複雑な表象を生み出しているのです。同じメカニズムは視覚や聴覚以外の感覚、運動制御、言語や思考などの高次機能に至るまであらゆるレベルで働いていると考えられます。このシンボルを繋げる連想記憶の機能がものごとの前後関係を生み出し、時間という概念の基盤になっています。従って脳は様々な階層のレベルでシンボルを繋げ、それらを記憶する事で時間の概念を生み出しているため、その特徴を指して階層時間記憶モデルという名前が付けられています。また一度記憶されたシンボルの列はA→B→C→Dと記憶されている場合には、A→Bの入力を見ただけで次にC→Dが来る事を予測します。例えば自販機にお金を入れて商品のボタンを押した後に何も起こらなかったらちょっとびっくりするはずです。それは飲み物が出てきたという経験をこれまで何度も繰り返していて、その一連の記憶が脳の中に出来上がっており、その記憶が勝手に脳の中で連想される事で次に起こる事を無意識の内に予測しているからです。予測が裏切られると、新しいパターンを学習しなければならないので、脳はそこに注意を向けます。

行動を生み出す時も、これくらいの刺激を筋肉に与えたらこういう動きをするはずだという予測が予め出来ている状態で運動ニューロンは筋肉への命令を出力します。従って行動と言うものも、脳の中で常に生み出されている予測信号の一部が外界に出力されたものに過ぎません。

HTM理論はスマートフォンのような携帯端末の前身になったPalmやTreoなどのPDA端末の開発者であるジェフ・ホーキンスによって提唱され、初期の理論は当時スタンフォード大学の大学院生だったディリープ・ジョージによって数学的に定式化されました。ディリープ・ジョージはその後Numenta社から独立しVacariousというベンチャーを起ち上げ独自の人工知能の開発に取り組んでいます。Vacariousは今後10年はステルスモードで開発する事を宣言しており技術内容が一切明らかになっていませんが、マーク・ザッカーバーグ、イーロン・マスク、ジェフ・ベソスなどシリコンバレーの名だたる投資家達からの出資を集めています。一方のジェフ・ホーキンス率いるNumenta社はIBM Almaden研究所と共同でHTMアルゴリズムの脳型コンピュータへの実装を進めています(2015年)。