東京大学松尾・岩澤研究室 鈴木雅大氏に聞く 第3回
「世界モデル」はフレーム問題を解決したのか?
世界モデルは主観的かつタスク依存的
──世界モデルに期待されているのは、シミュレータとしての役割なのですか。
鈴木 その通りですが、Soraが世界モデルって言いだしたので少しややこしくなっています。もともと世界モデルは主観的なものです。もっというと、主観的かつタスク依存的です。つまり、いま取り組むタスクにおいて良い予測モデルをAI自身が外界の情報に基づいて学習する。そうした世界モデルを獲得したうえで、どういうふうに行動すればいいかを学習したりとか、将来どうなるかをプランニングしたりするというのが本来の世界モデルの話です。そういう意味でいうと、必ずしも世界全体をモデル化する必要もないし、すべてのタスクで学習する必要もない。AI自身の主観的観点で、さらにある特定のタスクにおいて予測できれば十分なのです。もちろん、こうしたタスク依存的な世界モデルをさまざまなタスクや抽象的なタスクに汎化させるような研究は進められていますが、重要なのは、AIがさまざまなタスクに取り組むために世界モデルがあるという位置付けです。先ほどの波の例も、われわれは「生きていく」というある意味大きなタスクに対して、波に関するあまり知らなくても大きな支障がないので、うまく予測できないわけです。それに対してSoraなどは現実世界についてあらゆるシミュレーションが可能だというふうにいっています。ある意味、客観的ですよね。つまり、主観的な情報ではなくて、あらゆる視点のあらゆる情報を獲得してタスクにかかわらずすべての予測ができると主張しているわけですけど、それが果たして可能なのか。
──世界モデルと聞くと、あたかも神のように、もう1個の世界を創造するかのように聞こえるんですけど、そういうことでは全然ない。
鈴木 われわれ人間も世界を予測するといっても、人によって、経験によって違いますし、しかもすべてを予測できるわけではないですよね。そういう意味でいうと、Soraは人間ができる以上のことをしようとしているわけです。でも、人工知能が本質的にそのような能力を獲得することが必要かというとそうではないと思います。何か特定のタスクを前提に、どういうふうに行動すればいいか学習したり、将来を予測してプランニングするために世界モデルを使うわけであって、なんでも予測できますというのは逆に意味がないというか、われわれ人間もそこまでしてないよねということです。
──主観的なタスクというと、ある程度、変数になるような部分は切り捨てているということですか。
鈴木 タスクに関係のないものは予測する必要がないということです。たとえば、コップをつかむというタスクを考える時に、手の動きやコップの角度などは予測する必要がありますが、目の前にあるテレビに何が映っているとか、そうした関係ない情報を予測しても意味がないわけです。