東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第2回 世界すべてをモデル化することの難しさ

FEATUREおすすめ
聞き手 桐原 永叔
IT批評編集長

OpenAIは動画生成AI「Sora」の開発によって、現実世界を完全にシミュレートできると謳っている。言語空間に比べて途方もなく大きな現実空間において、それは本当に可能なのか。鈴木氏は、AIが現実空間を網羅して認識するのは困難だろうと語る。

取材:2024年8月2日 東京大学松尾・岩澤研究室

 

鈴木 雅大(すずき まさひろ)

東京大学大学院工学系研究科 松尾・岩澤研究室 特任助教

2013年北海道大学工学部卒業(学業優秀賞)。2015年北海道大学大学院情報科学研究科修了。2018年東京大学大学院工学系研究科修了,博士(工学)
博士論文:深層学習と生成モデルによるマルチモーダル学習に関する研究(工学系研究科長賞(研究))
2018年東京大学大学院工学系研究科 特任研究員。2020年東京大学大学院工学系研究科 特任助教

https://masa-suzuki.com

研究内容:転移学習,深層生成モデル,マルチモーダル学習,世界モデル

 

 

目次

われわれは潜在変数のなかで生きている

深層生成モデルとは何か

AIは時間を扱うのが苦手

 

 

 

 

 

われわれは潜在変数のなかで生きている

 

桐原永叔(以下──)先日のセミナーでは「潜在変数」*についてお話しされていました。われわれは潜在変数のなかで生きていると。

 

鈴木雅大氏(以下鈴木) その通りです。われわれは外界の観測情報から潜在的な表現を獲得していて、その中で思考や予測などをしていると考えることができます。

 

──それを機械が処理できるようになったというのはどうしてでしょうか。

 

鈴木 2つ理由があると思います。まず1つは、ディープラーニングの登場以降,新しい手法やモデルが提案されて,データからラベルなしで階層的な表現を獲得できるようになったということがあります。たとえば従来のディープラーニングでは、猫がいて、猫の画像から猫というラベルを予測する、つまり出力するという、入出力の関係を学習することが多かったです。しかし、ラベルがない状況でも、猫の画像から階層的に認識するように学習して、最終的に猫という抽象的な概念、すなわち潜在変数を人間が教えなくとも自動的に獲得できるようになった。

 

──「教師なし学習」と呼ばれるものですね。

 

鈴木 これは、深層生成モデル*と呼ばれる領域の進歩によって、抽象的な概念に対応する潜在変数を画像などの複雑なデータから自動的に獲得できるようになったところが大きいです。

 

──もう1つの理由はどんなことでしょうか。

 

鈴木 インターネットなどを通じてデータがたくさん得られるようになったことです。特に教師なし学習ではラベルを与えなくていいので、たくさんのデータから特徴量を獲得できるわけです。人間がデータにラベル付けをするというのは大変なので、そうした作業が必要なくなって、データから特徴を自動的に抽出できるようになったことがもう1つの要因としてあると思います。

 

──このあたりの話は、エンコード・デコードと関係がある内容ですか。

 

鈴木 おっしゃる通りです。教師なし学習の話は、まさしく今おっしゃったエンコーダ、デコーダの話と関係しています。例えば深層生成モデルの手法の一つであるVAE(変分オートエンコーダ)では、まず多層ニューラルネットワークで作られたエンコーダでその画像を階層的に処理して潜在変数を獲得し、そこから同じく多層ニューラルネットワークで作られたデコーダを使って元の画像を階層的な処理で戻します。画像を潜在変数にエンコードして元の画像にデコードするように、つまり再構成できるように学習する過程で、画像に対応する良い潜在変数をエンコーダで獲得できるようになるという仕組みです*。

*潜在変数:直接は観察されないが数理モデルを通して観測(直接測定)された他の変数から推定される観測の背後にある潜在的な変数を意味する。観測変数と対比される。データから潜在変数を求める(推論する)ことで、データの次元を圧縮し、抽象的な概念に対応する表現(潜在表現とも呼ぶ)を獲得することができる。

*深層生成モデル:深層学習を使ってデータの生成過程を学習し、新しいデータを生成することができるモデル。VAE(変分オートエンコーダ)や拡散モデルが代表例で、画像や音声、文章などを生成することができる。またデータの潜在変数を仮定することで、データからその潜在変数を獲得することができる。

*正確には、ここで説明しているのはより一般的なオートエンコーダについてである。深層生成モデルにおけるVAEは、オートエンコーダに確率的な要素や、潜在変数での制約などが加えられたものである。

1 2 3