東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第3回 「世界モデル」はフレーム問題を解決したのか?

人間のように世界を直感的に捉えるのが世界モデルだとすると、これまでAIの難問とされてきた「フレーム問題」も解決しうるのではないか。世界モデルの目指している役割について聞いた。
取材:2024年8月2日 東京大学松尾・岩澤研究室
鈴木 雅大(すずき まさひろ)
東京大学大学院工学系研究科 松尾・岩澤研究室 特任助教
2013年北海道大学工学部卒業(学業優秀賞)。2015年北海道大学大学院情報科学研究科修了。2018年東京大学大学院工学系研究科修了,博士(工学)
博士論文:深層学習と生成モデルによるマルチモーダル学習に関する研究(工学系研究科長賞(研究))
2018年東京大学大学院工学系研究科 特任研究員。2020年東京大学大学院工学系研究科 特任助教
研究内容:転移学習,深層生成モデル,マルチモーダル学習,世界モデル
目次
もっともらしさが孕む大きなリスク
桐原永叔(以下──)動画を生成するということは、世界全体をモデル化をするということとイコールなわけですね。
鈴木雅大氏(以下鈴木) それが本当にできるのかということです。実際にわれわれも、1分後に見える風景を正確に描いてくださいって言われたら無理ですよね。だけど、1分後に何が起こるかはなんとなくわかるわけです。ということは、われわれは抽象的な空間というか、潜在空間のなかで予測しているのであって、現実世界の予測を正確にしているわけではないということです。たとえば、将棋を指している人も、数十手指した時に盤面上のそれぞれの駒の細かい角度がどうなるかというのは予測できないけど、局面がどうなるかは予測できるわけですよね。つまり、視界に映った風景を完全に予測するのではなく、盤面という抽象化された空間上で予測することで、より遠くの将来が予測できるわけです。そんなふうにわれわれは抽象的な空間上で予測しているのに、現実空間そのものを予測することにどれくらい意味があるんだろうということは、最近いろんな研究者が言いだしています。
──面白いです。先日、落合陽一さんのウェビナーを見ていて、動画生成でつくられた波を紹介されていて、けっして物理法則どおりではないけれど、われわれは波として認識するんですよね。
鈴木 そこはすごく重要で、われわれの認識はそういう意味で雑なんですよね。波っぽければ波だと認識するんですよ。だから動画生成したものを見て、よくできているとみんな思うんですけど、物理法則的に見ると全然あってなかったりします。そもそもわれわれは自然の細かい違いについて、知らなくても生活にあまり支障がないので、そこまで詳しくないんです。なので特に自然を描写した動画などは、それっぽく見えていればすごいって思うわけです。ただ、コップを落としたらどうなるかとか、そういうシーンにはわれわれはよく親しんでいるし、生活する上で知っている必要があるので、物理法則と違っていればなんかおかしいと思うわけですけど、実際のおかしさという意味ではそんなに変わらないはずなんですよ。
──大規模言語モデルで言われる「尤度(ゆうど)」ってもっともらしさのことですから、動画に関してももっともらしさがあれば、見えている世界が再現されているということなのでしょうか。
鈴木 動画に関しても基本的には正しく次の時刻が予測できるように、つまり尤度が高くなるように学習しています。しかし問題は、学習した動画生成モデルが、世界モデルとして、つまり予測モデルとして使うとしたら十分なのかということです。
──まさにそれをお聞きしたかったのです。物理法則に合ってないけれどもっともらしい世界をシミュレーションすることは、むしろ大きなリスクが潜んでいるような気がします。
鈴木 おっしゃる通りで、正直あまり意味がないと考えています。OpenAI社が公開した動画生成AIモデルの「Sora」は、世界のシミュレータだ、世界モデルだと言っているわけですけど、世界モデルを研究している身からすると、シミュレータとしての予測性能が良くなければ、あまり使えないんですよね。世界モデルとして重要なのは、われわれがこういう風に行動したら、たとえばコップはこっちに行きますとか、そういったことを予測できなければいけないんだけど、ある種の介入的なものに対する予測が果たしてできるのかも重要になってくるわけです。