東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第2回 世界すべてをモデル化することの難しさ
AIは時間を扱うのが苦手
動画生成におけるAIの時間認識について教えてください。AIは人間のように時間の直線性を直感的に理解していないから難しいということなのでしょうか。
鈴木 時系列を扱ううえでは、われわれ人間は時間を1秒ごとに区切って認識したり行動したりはしませんが、現在の時系列を扱うニューラルネットワークでは便宜的に時間ステップを1秒ごととか0.1秒ごとなど特定の時間幅に区切って、それをデータとしてモデルに投げることが多いんですね。そしてステップごとに認識するということをしているわけです。あとの世界モデルの話とも絡んでくるのですが、このステップでこうしたら次のステップではこうなるみたいな感じで、ステップごとに予測している。だけど、われわれ人間は、たとえば物を掴むとか歩くとかいうときに、特定の時間ステップなんて意識していません。しかも「歩く」という行動にかかる時間ステップや「歩く」場所って毎回違うじゃないですか。つまり、われわれは「歩く」という行動を時間的にも空間的にも抽象化していて、その抽象的な概念上で行動を認識したり実行したりしているわけです。なので、そこを時系列データからどう学習するのかというのが重要なわけですが、実はまだまだできてない。
因果関係とか物理法則も学習できなければなりませんよね。
鈴木 おっしゃる通りですね。現在の時系列処理の方法で現実世界のあらゆる認識や予測ができるためには、現実世界のあらゆる時間や空間を補いうるデータを入手して学習できないといけないんですが、先ほど言ったように「歩く」という行動一つとっても空間や時間は非常に多様なので、けっこう難しいと思うんですよね。一方で、言語データは基本的に離散的な言語空間の系列で時系列の概念がないので比較的単純なんですよ。大規模言語モデルは、言語空間を実質的には網羅するように学習できたわけですが、それと同じように現実空間も大量のデータがあれば学習しきれるんじゃないかというのが今の主流の考え方のようですが、それは難しいと考えています。動画生成というのはけっきょく実世界を相手にするわけですから、われわれの世界すべてをモデル化しなければいけないので、言語空間と比べて明らかに大きいですよね。それが本当にできるのか。言語空間というのは、過去数千年にわたってわれわれ人間がコミュニケーションによって共同で獲得した外界のある意味、潜在変数なわけです。現実世界をものすごく効率的に抽象化した潜在変数で、われわれの複雑な行動とかもぜんぶ単純な動詞などとして抽象化しているわけです。そのなかで、大規模言語モデルは単語の系列を学習しているわけですけど、そうした抽象化された空間だからこそ大規模言語モデルは言語空間を網羅できているのだと思います。それと同じように、現実空間を網羅できるかというと、あまりにも現実空間は大きすぎる。そもそも、われわれ人間もおそらく現実空間をすべては認識できていません。われわれが認識したり思考したり行動したりしていると思っているのは実は頭の中の潜在変数の空間上、つまり潜在空間上での話なんです。外界から推論した潜在表現をわれわれは理解しているわけで、外界そのものを完全な形で認識しているわけではないんですよね。
われわれは現実世界を認識している時点で、その表現となる部分を抽出しているということでしょうか。
鈴木 そうです。現実世界を認識している時点で頭の中で高度に抽象化されているので、おそらく多くの人はそんなに無意識で高度な処理をしていると気づかずに、現実世界の広さを過小評価しているのだと思います。実際には興味のないところは全然認識してないですし、これを完全にモデル化しようとするのはたぶん無理だということを、多くの人は見落としていると思います。