東京大学松尾・岩澤研究室 鈴木雅大氏に聞く
第1回 AIが世界を直感的に理解する「世界モデル」

FEATUREおすすめ
聞き手 桐原 永叔
IT批評編集長

人間の認知をディープラーニングで再現する

先ほどの「人間は階層的に物ごとを理解している」というところをもう少し詳しくお聞かせください。

鈴木 ディープラーニング以前の機械学習では画像などのデータを入力するときに、そのデータがどういう特徴を持っているのか、あらかじめ設定していました。ですが、われわれ人間はものを認識するときに、認識の仕方を何かあらかじめ設計しているわけではなくて、いろいろ経験していくなかで、認識能力を獲得しています。つまり、データから特徴を抽出すること自体を、われわれ人間はいろんなデータを取り入れるなかで学習しているわけです。そして、その特徴を階層的に認識しているということが重要なのです。ここに机があるとしましょう。人間はいきなりこれを机と認識するのではなくて、1回、視覚から入ってきた情報をバラバラにして処理している。脳の中で、視覚情報からエッジなど基本的な特徴を認識した上で、それを組み合わせて机の角とか机の模様といった要素を頭の中で再構成しています。さらにこうした要素を統合することで、最終的に「机」という抽象的な概念を獲得していくわけです。そうした仕組みで脳が動いているということはわかっていました。その認識を人間と同じようにコンピュータが獲得するため方法として、階層的な構造をもつニューラルネットワークをつくって、その多層ニューラルネットワークを機械学習のモデルとしてデータから学習させることが考えられました。これがディープラーニングの重要な点です。

今のお話は世界モデルにも出てくるエンコード(符号化)・デコード(復号化)1の話に繋がりますね。

鈴木 おっしゃる通りです。われわれ人間は、机を見たときに、どんな形のものでもどの角度から見ても同じ「机」とみなすわけですが、これは、実はけっこう不思議なことなんです。しかも完全に見えているわけではなくて、部分を見ただけでも「机」と認識できる。網膜には画像として一部分しか捉えていなくても「机」として認識しているということは、要するに網膜から入った部分的な情報から頭の中で机という概念にエンコードできているからです。それをさっき申し上げたように階層的に学習することでディープラーニングならできるのではないかというのが、注目された1つの大きな要因だと思っています。

なるほど。AIが人間の脳の構造を模していると言われるのはそういう点でもあるんですね。

鈴木 実は、そこはちょっと微妙なんです。よくディープラーニングは脳を真似ていると言われますが、実際には全然そんなことはなくて、構造は脳とはかなり違うんですよ。ただ、いま申し上げたような階層的にものを認識するという点では人間の脳と共通しているところがあると思います。今までは「机」というものを画像などから認識するための特徴量の抽出方法の設計を人間が行っていました。画像認識の研究者たちはそこをずっと頑張っていたんですけれども、さまざまな机の画像の特徴を一般化できるように設計するのは、やっぱり難しい。さっき申し上げたように、われわれ人間はそれを学習によって獲得しているので、それと同じように自動的に獲得するためにはどうすればいいかを考えたときに、階層的な構造が重要なんだという結論に至ったのですね。

1 2 3