人のパートナーとなるAIを探求する──慶應義塾大学教授・栗原 聡氏に聞く
第2回 シンボライズすることで見えてくること
シンボルの交換としてのコミュニケーション
言語をシリコンチップ上で処理することは、かつてノーム・チョムスキーが脳に書き込まれた生得的な普遍言語として構想した生成文法理論*1に基づく構文統語規則2を、オートマトン理論3や数理言語学4を用いることで試みられましたが、ことごとく失敗しました。
栗原 チョムスキー先生の理論を言語メカニズムとして再現することはうまくいかなかったという捉え方ですが、それはチョムスキー先生の野望が失敗したというよりも、当時の技術が本来の意味でのシンボルを扱うことができず、言語の背後にある多種多様なものにまでアプローチできなかったからだと思います。LLMがなぜ流暢に言語を扱うことができるのかというと、膨大かつ複雑な言語の関係性がサンプリング・フォア(膨大なデータから多様なパターンを広く拾い集める手法)で学ばれたことによって、シンボル同士の深い関係性が使えるようになったからです。当初はシンボルを使うための技術自体、そしてマシンスペックが足りませんでした。なので、言葉のつながり方に注目した統計的な言語処理技術が登場してそれなりに成功を収めました。それでも限界があったところにTransformer技術とそれに基づくファウンデーション・モデルが登場したことで、本来のシンボル処理が可能になったのだと思います。
今井むつみ先生と秋田喜美先生の共著『言語の本質』(中公新書)では、記号設置問題5におけるオノマトペの役割が重視されています。ただ、日本語は他言語と比べて例外的なほど多くのオノマトペを持つ言語なので、言語全体の説明と敷衍するのは成立しづらいように思えます。
栗原 ある状況において1つのシンボルと結びついて相手に伝わるという意味では、オノマトペも言語と同じものとして捉えられると思います。先ほど「言語」といいましたが、日本語や英語といった体系化された言語だけでなく、鳴き声やジェスチャーといったノンバーバルなものも脳に反応を起こすためのトリガーという意味では言語と同様であると思います。また、私たちはちょっとした仕草や表情についても何かしらのラベルづけをしていると思いますから。とはいえ、言語を持たない動物と、言語を持つ人間との間に大きな差があるということは、やはり複雑な処理にラベルをつける言語を獲得した私たちが高い情報収能力を身につけたということになると考えてよいのだと思います。
認知心理学者のマイケル・トマセロはものを指し示すことが言語の起源だといっています。また最近ではニック・チェイターが『心はこうして創られる 「即興する脳」の心理学』(高橋達二、長谷川珈訳・講談社)のなかで、言語は即興的なジェスチャーゲームだといっています。例えば、フック船長が漂着して原住民と遭遇したときに、お互いに言葉はわからないけれど、敵意がないことを示すために武器を捨ててみせて、船上で食事をふるまったら美味しそうに食べたというエピソードは、言語を介さずともシンボルを交換するコミュニケーションが成立したとも捉えられます。
栗原 そうですね。一連の動作の総体としてシンボルを理解したといえるのだと思います。物事や現象を抽象化することにおいては、言語によってラベルづけすることが重要です。私が考えているファウンデーション・モデルからシンボルの関係性を取り出すという構想においては、従来と同じシンボルを扱うものの、そのネットワークは従来のナレッジグラフなどの既存のものとはかなり質も大きさも違うものになるだろうと思います。
AIがシンボルをその背景やシンボル同士の関係までを理解できるようになり、そのようなAIがロボットに搭載されると、どのようなことが可能になるでしょう。
栗原 先ほどまで、学生と話していた内容が面白かったです。人間同士で、若い付き合いたてのカップルであれば、女の子は可愛く見せたいですし、男の子はカッコよくみせたいわけです。それは、カップなどを手に取る動作に現れます。しかし、既存のロボティクスでは、一様な合理的な挙動しか考慮しないでしょうし、多様な仕草までを強化学習で学習させることは困難です。そもそも、仕草にはその背景や意味がありますが、仕草という表面的な動作しか学ばないロボットにはその意味を理解することはできません。しかし大規模LLMには、過去の可愛いふるまいのデータだって入っているはずです。もしも、若い女の子という設定のロボットが、男の子を前にしたときに、表面的にせよその理由を答えつつかわいい仕草をすることができるわけです。
制御さえできれば、最強の“あざと可愛い”ロボットが実現しそうですし、そこからモテを教わることもできそうです。
栗原 そういった立ち居振る舞いや感性といった領域に手を出すことは、ファウンデーションモデルという情報基盤が登場するまではできなかったのです。もちろん今のファウンデーションモデルもまだ完成形しているわけではありません。しかし、それでも圧倒的な量のデータが詰め込まれていますから、そこから本来のあるべきシンボル空間を再構成することは可能だと思います。