東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第4回 世界モデルはAIに能動性を持たせる

FEATUREおすすめ
聞き手 桐原 永叔
IT批評編集部

人間には簡単にできてAIにはできないこと

それを解決するためにはどういう課題があるのですか。

鈴木 コップを持つとはどういうことかを、1から現実世界と相互作用して獲得しなければいけないわけです。松尾教授が以前、AIは、認識、行動、言語という順番で進化するといっていたんですけど、認識は先ほど申しあげたように、ディープラーニングでできるようになりました。それから行動を飛び越えて、いきなり言語に移ったわけです。いま言語的に理解するということは、要するに言語空間内の遷移という形でできるようになったわけです。次に行動に持っていこうとして、ここで行き詰まっているというのが現状だと思います。われわれ人間は、赤ちゃんの頃から、現実世界と相互作用を行なって、こういう風にコップを握れば大丈夫なんだということを経験から学習しています。そうした「握る」「つかむ」といったプリミティブな行動を外界と相互作用して獲得しているのですが、AIにはそこが全然できていないということですね。その意味で言うと、シンボルグラウンディング(記号接地)はできていない。

第3次AIブーム以降に、演繹的なロジックよりも、むしろいっぱいデータを集めて帰納的なロジックでAIが飛躍的に進化しました。人間もどちらかといえば帰納的なところがありますよね。ただし人間が違うのはデータ量がAIに比べると圧倒的に少なくてもうまくいくことがある。世界モデルのお話を伺ったときに、もしかするとAIが学習する量がそんなにたくさんなくても、人間の経験みたいに学びが速くなることはあるのかなってちょっと思ったんですけど。

鈴木 僕はAIにそれができない根本的な原因はAIが受動的だからだと思っているんです。ChatGPTが賢いとかいいますけど、極端なことを言うと、口を開けて待っているだけなんですよね。われわれがわーって大量にデータを与えて学習させ、問いかけるとなんかペラペラ喋って返してくる。実際には現実世界では行動できないんだけど、われわれがプロンプトを投げるとなんでも返してきて、なんか偉そうみたいなイメージだと思うんですよ。われわれが欲しいAIはそうじゃなくて、自分から行動して、自分から新しい知識を身につけて、実世界でうまく対応する。片付けするとかそういったものを自分でしてくれるAIが欲しかったはずなんだけど、なんかちょっとわれわれが欲しかったAIと違う方向に行っているのが現状だと私は認識しているんですね。世界モデルの研究はまさしくそれを目指しています。

動画生成のほうじゃなくて主観的な世界モデルの方ですね。

鈴木 自分で外界を探索してデータをとってきて、それで世界モデルを学習して、世界モデルのうえでどう行動するかを学習した後にさらにデータをとってくるみたいなサイクルを回している。そうすると意外ととってくるデータ量は少なくてもどう行動すればいいかを学習することができる。

能動的に動くことによって、与えられるデータで学ぶよりも早く少ない量でできるという可能性が出てくるわけですね。

鈴木 そうです。能動的になることで、自分が何をわからないのかがわかるので。話の前提として、自分がわかっていることをわかることが必要なんですよ。理解できていないことを理解することが必要なんです。これって世界モデル的な話で、つまり自分がここまで理解できていることが前提としてあり、そのうえで自分が足りないところを認識してそこのデータをとってくる。それによって世界をより広く知るようになる、そういったイメージです。

そこの部分ってより複雑で高度ですよね。自分がわかっている部分を抽象化して、応用できる部分も理解したうえで、足りないところを理解する。

鈴木 AIにはそういったことが必要だと思っていて、研究をしています。

1 2 3