人のパートナーとなるAIを探求する──慶應義塾大学教授・栗原 聡氏に聞く
第1回 ファウンデーション・モデルからシンボル空間を再構成する

FEATUREおすすめ
聞き手 都築 正明
IT批評編集部

ファウンデーション・モデルのシンボル版を構築して状況を理解する

抽象度の高いレベルでいうと、どのようなことになるのでしょう。

栗原 例えば、いま机の上にペットボトルが置いてあります。この状況で、ペットボトルが自分の前に差し出されたものであれば、私たちは手を伸ばすという行動をとります。しかしペットボトルが屋外に置いてあって、しかも汚れている場合には手に取ろうとはしません。同じものが置かれていたとしても、状況を判断したうえで行動するわけです。明らかに他人のものであれば手に取ろうとはしませんし、寝る直前であれば水分を過度に摂ることを控えます。今のロボット研究でのエンド・トゥ・エンドでの学習は、状況とは関係なく目の前にあるものを認識して、それを盲目的に手に取ることのみに集中しているといえるでしょう。状況を判断するためには、これまでは想定できる状況を分節化してルールを書き込んでいたわけです。これに対してLLMに「夜、テーブルにペットボトルが置いてありますが、飲みますか?」と尋ねれば「飲みません」とちゃんと応答してくれます。これは、そうした状況に応じた我々の行動についての何からの言語情報があらかじめ学習されているからなのです。

応答としては、行動を引き出すきっかけとなるアフォーダンスを読み込めるようにみえるわけですね。

栗原 そういうことです。私たちが現在つくっているモデルでは、“apple”という単語と“pencil”という単語を入れると“draw”という動詞を取り出すことができます。私たちが状況に応じてどのような行動をとるであろうことをLLMから予め引き出しておくことで、いわば“空気を読む”挙動を容易に実現できる可能性があるわけです。

桐原永叔 (IT批評編集長 以下桐原) オペラント条件づけのようにしつけをされた動物が、客観的にはモラリスティックにみえるのと同じことでしょうか。演繹的ではなく帰納的に身につけたルールであっても、客観的にはモラルとしてみることができるという。

栗原 状況によって確率的にもっともな応答をするLLMには、帰納も演繹もなくデータが入っているだけです。厳密にいえばアメリカやヨーロッパと日本では異なるかもしれませんが、人間の持つ共通のルールについては、データのなかに入り込んでいるわけです。

桐原 計算機科学者のジューディア・パールの因果推論の論考を読むと、AIが仮説思考による因果推論のモデルを使うことで反省を覚えられるようになるのではと予想できます。統計的な理解ができるのであれば、倫理の意味とか根拠を理解しなくてもよいかもしれません。

栗原 はい、根拠よりも、客観的に理解しているかのように振る舞えることになったこと自体が大きな前進なのです。一方、AIからモラルや常識を取り出す話をしましたが、たとえばテーブルにリンゴが載っていたらどうするのかを毎回プロンプトで聞いていたら収拾がつきません。そこで私たちは、事前に膨大な情報を引き出すことで、大規模なシンボル型のAIを構築中です。シンボルのネットワークを構築すると、動作の根拠を説明できるための因果的関係を取り出すことも可能になってきます。シンボル型AIについては、それこそ1960年代の第1回目のAIブームの時から延々と研究されてきましたが、それがブレイクスルーをもたらさなかったのは、前述しまたようにビッグデータを与えても、言語の複雑な関係性をシンボル空間で表すことが難しかったからだといえます。従来のN-gramマルコフモデルでは、ある単語の次にくる単語の出現頻度を予測していましたが、文章間における広範な関係のネットワークまではつくれませんでした。ところが文脈をみて重要部分に焦点を当てるTransformerのAttention機構という、膨大な文章における単語間の関係を学習するができたわけです。しかもTransformerに圧倒的な規模の文章を入れたことによって、巨大な言語空間の確率モデルを構築することに成功したのです。

以前の言語処理では、条件分岐(IF-THEN)が入れ子状に何重にも重なっているコード構造をつくらなければならなかったところに、ベクトルデータで入出力できるファウンデーション・モデルが出現したということですね。

栗原 ただし、巨大なAIモデルを構築するにはスケールしたリソースが必要となります。そして、言語と同じように、ロボットの動作における学習においても、LLMと同様のやり方が現在大いに注目されているのですが、これについては自分としては大きな懸念があります。例えば、現在のロボット研究ではアームロボット数百台を並べて、掴み方に成功した/失敗したという強化学習を延々と行い、さまざまな動作をさせて、エンド・トゥ・エンドで動作を学習させようとしています。そのアプローチで日本ならではの成果は見込めないとまでは思いませんが、アメリカや中国のビックテックが同じことをはじめれば、それを大規模に実施することが容易にできてしまいますし、間違いなくするでしょう。それは米中がフェラーリで突っ走っているところを日本が自転車で追いつこうとするようなもので、極論を言えば同じ方法で攻めることに価値を見出せません。一定の成果は出るかもしれませんが、莫大なコストに見合うとは思えませんから。

予算の単位によって、フォローできる要件や精度が変わってきてしまいますものね。

栗原 今のロボット学習では、どのような行動をすればうまくいくかという行動系列を網羅的に探索して強化していきます。その方法では、あらゆる行動を学習するのにどれだけの時間とリソースを必要とするのでしょうか。しかし私たちは、ホテルの暗い部屋で目が覚めて、ライトを点けようとスイッチを探すとき、むやみやたらとスイッチを探そうとはしません。「スイッチはだいたいこのような場所に設置されている」という常識を使って、目をつぶっていてもだいたい探し当てることができますよね。なので、初めて訪れた建物のエレベータホールでも、ボタンをすぐに見つけることができますし、いま机に置いてあるボイスレコーダーだって、どこのメーカーの製品であれ、私もすぐに操作することができます。そう考えると、視覚情報を処理してあらゆる行動の学習を繰り返すことにどれほどの意味があるのでしょうか。私たちは視覚や聴覚といった情報と、教えられたにせよ、経験的に身に付けたにせよ、学習された知識を組み合わせることで状況を理解しているのです。そして、その知識を活用することにおいて、スケールした大規模LLMの登場がこれを可能としてくれたのです。スケールしたAIモデルから再構築されるシンボル空間でのシンボル処理が、それまでのシンボル処理と大きく異なるのかの理由はここにあるのです。

1 2 3