東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第4回 世界モデルはAIに能動性を持たせる

人間は、赤ちゃんの頃から、現実世界と相互作用を行なってプリミティブな行動を獲得しているが、それがAIにはできないのはなぜか。鈴木氏は、AIに能動性や自律性を持たせることの重要性を説く。
取材:2024年8月2日 東京大学松尾・岩澤研究室
鈴木 雅大(すずき まさひろ)
東京大学大学院工学系研究科 松尾・岩澤研究室 特任助教
2013年北海道大学工学部卒業(学業優秀賞)。2015年北海道大学大学院情報科学研究科修了。2018年東京大学大学院工学系研究科修了,博士(工学)
博士論文:深層学習と生成モデルによるマルチモーダル学習に関する研究(工学系研究科長賞(研究))
2018年東京大学大学院工学系研究科 特任研究員。2020年東京大学大学院工学系研究科 特任助教
研究内容:転移学習,深層生成モデル,マルチモーダル学習,世界モデル
目次
言語的な指示が現実世界に届くかどうかという問題
桐原永叔(以下──)ChatGPTの中にはもうすでに世界モデルが発現しているということを言う人もいます。これは、大規模言語モデルにおける記号接地問題*とどう関係してくるのでしょうか。
鈴木雅大氏(以下鈴木) とても良い質問だと思います。まず、世界モデルと言ったときに、少なくとも言語空間における予測という意味では、現実世界とその潜在的な空間のあいだには、特に言語的な空間のあいだにはかなり乖離があります。言語そのものが現実世界をかなり抽象化しているわけです。記号接地問題の話は、現実世界から言語的な空間への問題というよりも、言語から現実世界を見たときに生じる問題なのだと考えています。つまり言語的な指示が現実世界に届くかどうかという問題です。たとえばロボットに掃除してと指示して、実際に現実世界の環境に合わせて掃除ができるかということなんです。掃除という行為は、現実世界の環境、たとえば家の中や外の道路などによって、それぞれ実行される行動が大きく異なります。実世界に行動として具体化しないといけないんですけど、それが難しいんですね。ChatGPTのような大規模言語モデルは、言語空間におけるタスク管理とかはできるんですけど、それを実世界で実行するように学習することは全然できていない。そういった意味で、ChatGPTは外界を抽象化した表現としては、世界モデルは持っているかもしれないが、それを現実世界で実際に行動に移すという意味ではまだまだ持っていない。
──ひと口に「掃除」といっても、人間はたいへん高度な処理をしているわけですね。
鈴木 そうです。われわれ人間は言語的にものごとを理解し、そのうえで実際に行動していますが、大して苦労しているわけではない。コップを持つこともそんなに苦労しないでできています。AIにこれをやらせようとするととんでもなく難しいわけです。コップを持つとひと言で言っても、角度によっても全然違うし、コップの形状によっても違う。実際の多様な環境に応じてコップを持つことを実際にやらせることが非常に難しい。
──インプットに関しては、どういうものが掃除で、どういうものがコップだと理解するのはできている。
鈴木 それを実世界でじゃあやってごらんといったときに、全然できてないということです。
*記号接地問題:記号で指し示されるものをAIがどのように認識するかという問題。記号(シンボル)が概念に接地(グラウンディング)されることなしには、記号処理が意味をなさないことを議論している。認知科学者のスティーブン・ハルナッド(Stevan Harnad)が1990年に提唱した。