人のパートナーとなるAIを探求する──慶應義塾大学教授・栗原 聡氏に聞く
第3回 AIのスケール化が抱えるリスク

FEATUREおすすめ
聞き手 都築 正明
IT批評編集部

人間の熟考とAIの熟考との違い

桐原 先生は著書でダニエル・カーネマンの“システム1/システム2”について書かれています。直観で反応する“システム1”と熟考する“システム2”を人間が使い分けているとして、AIの思考は速すぎてシステム1とシステム2に差がないとすると、AIは熟考できないことにならないでしょうか。つまり、人間が熟考によって導かれるような反省や倫理に至ることができないのでは?などと考えてしまいます。

栗原 “システム1/システム2”はあくまで人間の脳の話です。私たちは熟考するためには時間を要するわけですが、コンピュータは高速な処理ができることからLLMは瞬時に応答します。学習した範囲内においては“システム2”のような熟考と思われる内容であっても、“システム1”のレベルで実行できてしまうのです。一方で、ファウンデーション・モデルができるのは、あくまでプリセットされた熟考だけで、状況をふまえた動的な適応となるとそう簡単にはできません。

動的に変化することには対応できないということですね。一方、人はといえばファウンデーション・モデルよりはるかに粗い情報から思考しています。

栗原 そう考えると、本来の“システム1/システム2”という能力は、まだAIは獲得できてはいないのです。(カナダの計算機科学者ヨシュア・)ベンジオ先生が「これからは“システム2”だ」と言っていたのも、生成AI以前のことですから。そう考えると、もはやAIの思考の仕方は人とは大きく異なると捉えたほうが適切です。

畳み込みニューラルネットワークを生みだしたヤン・ルカン氏は、脳内の世界モデルをシリコン上に実装したAIを構想しています。

栗原 私自身は、環境との相互作用を重視して、世界モデルに懐疑的であろうと勝手に思い込んでいる(ロボット研究者)ロドニー・ブルックス先生に近い考えを持っています。ルカン先生のいうことが実現するとすれば、ファウンデーション・モデルを用いて、誕生したときから人と同じ成長スピードで、同じ環境刺激を得てできた世界モデルができれば可能かもしれません。しかしその実現には膨大なコストと時間が必要です。しかも、人の五感のすべての情報も入力し続ける必要があります。それでもたった1人分の世界モデルにしかなりません。それなら、ほぼ世界規模の情報が集約された大規模LLMを使うほうが手っ取り早いし、工学的にもこの方法の方が好ましいでしょう。

環境との相互作用という意味では、身体性はどのような位置づけになるのでしょう。

栗原 GPT4oのような大規模LLMでは表面的であれ、身体性を理解するやりとりも可能となってきました。そして、従来は身体性と知能とは切り離せないという議論もあったのですが、LLMが身体性を理解できるということは、思考する部分と身体を分離することが可能になることを意味しています。例えば何かを持つ動作をするときに、身体性を考慮した、持ちたいという欲求までを思考するAIが持ち、その先の具体的な動作はハードウェアの身体性に即した動作を、ハードウェアごとに持てばよいとするのです。これに対して、エント・ツー・エンドのハードウェアごとに特化したAIモデルだと、身体性の異なるハードウェアごとに思考する部分までを用意する必要があり極めて面倒だし、無駄も多く実用性が乏しいと思うわけです。思考と身体の分離は別に新しい考え方ではなく、ごく自然な考え方だと思います。もしも、各自が自分専用の思考するだけのAIを持つとしたら、身体側であるロボットには思考する部分は不要となります。思考するAIがプラグイン――憑依とかイタコという表現をする研究者もいます――することで、ロボット専用のように動作するわけですから。自動運転車も、現在の人が運転する車と同様に駆動系と操舵系のみあればよいわけです。人が運転するように、自分のAIがプラグインして車というロボットを操作すればよいのです。AIがさまざまなロボットに憑依できるよう、憑依するためのプロトコルは共通化する必要がありますが、これなら、各ロボットに対応する個別のモデルは不要です。ロボットメーカーはAIと接合するプロトコルに準拠すればあとは駆動系のみ設計すればよいわけです。また、実世界に存在するロボットに加え、サイバー空間に存在する自律型のアバターにAIが憑依することもできます。

桐原 演繹と帰納があって、その先にアブダクションがあるとすると、私たちは必ずしもルールベースで演繹的に生きているわけではなく、誤解や誤謬をふくんで経験のなかで学んでいるといえます。人間は統計的なデータも演繹的なルールもなしに直観的に判断して、さまざまな問題を起こします。今お話しいただいたロボットも推論とフィードバックにおいて学ぶわけですよね。

栗原 ファウンデーション・モデルがやっていることは、入力されたプロンプトの文字列から統計的にもっともな出力を生成することであり、いわゆるしっかりした厳密な推論はできません。ただし、学習データには我々が推論した際の文章なども大量に含まれているであろうことから、推論したかのような反応はできますし、推論に特化した大量データで追加学習することで推論能力を高めることはできても、やはり限界はあるのだろうと思います。これに対して、私たちがつくろうとしているのは、ファウンデーション・モデルから再構成した巨大かつ複雑なシンボルネットワークです。各ノードはシンボルであることから、○○ノードが発火してから○○ノードが発火した、とすると、それば後者のノードの発火の要因に前者のノードがあることを意味するように、因果的思考が容易なアーキテクチャとなるはずです。ロボットが我々も思惑通りに動作しなかった場合、言葉としてなぜその動作ではダメなのかをロボットに伝えることで、ロボットが動作を更新できるようになるのだと思います。

「ならぬものはならぬ」という定言命法にはならないわけですね。

栗原 AIは高速に計算できますので、先に述べたように、システム2もシステム1レベルで反応することができます。人間同士では、即答すれば考えずに生返事をしたように思いますからね。なので、AIは即答せずに、あえて間をおいて応答するように振る舞わせることも必要かもしれません。ロボットにとっては人間に信頼してもらうことが大切ですから。人間が理解するために猶予を設けて、その時間でAIがよりアップデートした計算をすることもできますしね。

1 2 3