東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第5回 AGI(汎用人工知能)の実現には世界モデルが不可欠
現実世界で動くAGIには世界モデルが必要
世界モデルは、AIの進化でいうと、AGI(汎用人工知能)に向かうステップとして受け止めればいいんですか。
鈴木 必要条件だと思います。世界モデルがないとAGIはできないと思います。現実世界で動くようなAGIをつくるんだったら、世界モデルが必要です。そうではなく言語空間とかだったら、今の大規模言語モデルでも十分かもしれない。だけど、われわれが本当につくりたいAIやロボットは、実世界で人間を助けてくれるようなものなので、そこを目指すんだったら世界モデルは絶対必要です。
いわゆるAGIが何を意味するのか、求めるものによってニュアンスが違ってきますね。
鈴木 コンピュータ上で賢く振る舞えればいいと思っている方は、LLMを組み合わせることによってAGIができるかもしれないと思っているでしょう。ただし、今のLLMがこれ以上進歩するかというと、けっこう難しい部分も多いと思っています。例えばある論文によると、2026年から2032年くらいに言語データが枯渇すると見られています。さらに今後増えるデータというのは、おそらくAI自身が生成したものになりますから、言ってしまえばゴミみたいなデータがたくさん増えて、むしろ精度としては悪化する可能性のほうが高いと思っています。実際にAIは自分が生成したデータを学習しつづけると、どんどん劣化することが示されています。そうなると、いま以上に賢くなる可能性がなくなるかもしれない。
今はまだパラメータの勝負みたいな話をしていますけど、それが枯渇してしまうのですね。
鈴木 最近はモデルマージとかの研究も行われています。複数の知識を持つAIを組み合わせて意思決定することによって、より賢い知能をつくるみたいな話ですが、それでも現状のような知識の獲得方法だと、本質的な限界はやっぱりどこかで来ると私自身は思っています。
一方で、鈴木先生は1年前に今と同じ状況を想像できたかというと、なかなか難しいと言われていました。とんでもないブレイクスルーがまたどこかで起こるかもしれません。
鈴木 一昨年から去年の流れがいちばん想像できなかったんですけど、去年から今年はなんとなくわかる。要するに言語データがもうほとんど学習し切っているので、画像データと組み合わせて意思決定するような流れになるんだろうというのはわかります。
鈴木先生が研究を始められてから、これはブレークスルーだとお感じになったのはいくつかありますか。
鈴木 いちばん最初にすごいと思ったのは深層生成モデルです。私が博士課程に入って2、3年ぐらいから大きく進歩したんですけど、あれはやっぱりすごいと思います。今の大規模言語モデルとか画像生成AIもそれがベースになっているので。あとは去年あたりの、大規模言語モデルの急速な進歩ですね。動画生成も最初は驚いたんですけど、いろいろ検証してみたら意外とまだできていない印象があります。あれはチェリーピック(いいとこどり)でいいやつしか見せていない部分も多いのではないかと思います。
そんなことがあるのですね。
鈴木 けっこう昔からそうなんです。画像生成系もそうですけど、できのいいものしか見せてなくて、自分で実装して試したりすると案外うまくいかない。動画生成も実はそんなにできてないのかもしれないけど、それっぽく見せているみたいなこともあると思います。