東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第5回 AGI(汎用人工知能)の実現には世界モデルが不可欠

FEATUREおすすめ
聞き手 桐原 永叔
IT批評編集長

鈴木氏は、世界モデルはAGI(汎用人工知能)を実現するためには必要条件であると言う。鈴木氏が考えるAGIの姿と、AGIは人間にとってどんな役割を果たすようになるのかを聞いた。

取材:2024年8月2日 東京大学松尾・岩澤研究室

 

 

鈴木 雅大(すずき まさひろ)

東京大学大学院工学系研究科 松尾・岩澤研究室 特任助教

2013年北海道大学工学部卒業(学業優秀賞)。2015年北海道大学大学院情報科学研究科修了。2018年東京大学大学院工学系研究科修了,博士(工学)
博士論文:深層学習と生成モデルによるマルチモーダル学習に関する研究(工学系研究科長賞(研究))
2018年東京大学大学院工学系研究科 特任研究員。2020年東京大学大学院工学系研究科 特任助教

https://masa-suzuki.com

研究内容:転移学習,深層生成モデル,マルチモーダル学習,世界モデル

 

 

目次

複数のモダリティの情報から抽象的な表現をどうやって獲得するか

行動表現の学習を自動化したい

現実世界で動くAGIには世界モデルが必要

 

 

 

 

 

複数のモダリティの情報から抽象的な表現をどうやって獲得するか

 

桐原永叔(以下──)マルチモーダル*なAIを見て思うのは、あれは芸術家的な振る舞いなんじゃないかと。風景を見てメロディーが出てきたり、文章を読んで絵が浮かんできたりっていうのは、まさにマルチモーダル的な感じがします。マルチモーダルなAIは、芸術家が行うような抽象化をしているように感じるのですが。

 

鈴木雅大氏(以下鈴木) 私が以前から研究しているのは、そういう複数のモダリティ(異なる種類の情報)から、抽象的な表現をどうやって獲得するかなんです。先ほどから表現とか潜在変数と申しあげていますが、これを複数の種類の情報からどうやって獲得するのかに興味を持っています。たとえば、われわれが概念として犬と認識しているものって、もはや画像でもないよくわからないものだと思うんです。文章から「犬」という単語を見ても同じように認識できるし、画像を見てももちろん認識できるみたいな感じで、どのモダリティから見ても同じような表現として認識できる。それをどうやってAIができるんだろうという研究を以前からしているわけです。

 

──マルチモーダルと世界モデルの関係性はどういうふうに考えたらいいのでしょうか。

 

鈴木 今の世界モデルは画像だけからそのモデルをつくっていますけど、実際にはわれわれは、音声とか文章とかいろんな情報からその世界のモデルを形づくっています。そのモデルで獲得された潜在表現というのは抽象的なよくわからないものです。よく将棋を指す方が、なんでその手を指したのかと聞かれて言葉では説明できないと答えるときがありますよね。あれは多分そういう感じで、なんかいろんな知識や情報が統合されて、言語空間とは異なるよくわかんない表現空間になっていて、その表現空間上で思考をしているのだと思います。なので、どうその表現空間を獲得するか、複数の情報からどう獲得するかというのがマルチモーダルの話で、その表現空間でどういうふうに将来を予測するモデルを獲得するかが世界モデルの話と捉えていただいてもいいかもしれません。

*マルチモーダル:複数の異なるタイプのデータを統合して処理する技術や手法のこと。たとえば、テキスト、画像、音声、動画などの異なる形式のデータを組み合わせて、それらを総合的に理解したり、活用したりする技術で、生成AI活用において注目を集めている。

1 2 3