言語コミュニケーションと「常識(コモン・センス)」を考える
東京女子大学現代教養学部准教授・大谷弘氏に聞く(2)

FEATUREおすすめ
聞き手 都築 正明(IT批評編集部)/桐原永叔(IT批評編集長)

「フレーム問題」とともにAI研究の課題となってきた「記号接地問題」。語と語の統計的距離のみに基づいて生成されたLLM(大規模言語モデル)の言葉が記号接地をしているかについても、大きく議論が分かれている。コミュニケーションの主体にかかわるこの問題は、現実生活における責任の所在にも影響する。大谷氏は言語実践の判断基準として「常識(コモン・センス)」を挙げる。

大谷弘

大谷 弘(おおたに ひろし)

1979年京都府生まれ。東京大学大学院人文社会系研究科基礎文化研究専攻博士課程満期退学。博士(文学)。東京女子大学現代教養学部准教授。専門は西洋哲学。著書に (筑摩書房)、 『ウィトゲンシュタイン 明確化の哲学』(青土社)、『「常識」によって新たな世界は切り拓けるか――コモン・センスの哲学と思想史』(共編著、晃洋書房)、『因果・動物・所有――一ノ瀬哲学をめぐる対話』(共編著、武蔵野大学出版会)、訳書として『ウィトゲンシュタインの講義 数学の基礎篇 ケンブリッジ1939年』(共訳、講談社学術文庫)がある。

目次

(大規模言語モデル)から考える言語コミュニケーション

都築 LLMの語のつなげ方は、ヒュームの観念連合と似ている気がします。意識内容が類似・因果・近接で寄せ集められているとヒュームが主張するように、LLMでは語と語の間を統計的な距離で結びつけているだけで、メタレベルの質的なものがあるわけではありません。ChatGPTとそれなりに会話が成り立つのは、 私たちの会話が統計学的な言語ゲームにすぎないことの裏返しではないかと。

大谷 それは面白いですね。ヒュームとウィトゲンシュタインとは結構微妙な関係で、近いという人もいるし、遠いという人もいると思います。ヒュームの説は、よい悪いではなく、実際のところ観念は類似と接近と因果の観念連合の原理に基づいて結びついているということです。ウィトゲンシュタインは実際にどうなっているかにはさほど関心がなく、私たちがどういう枠組みのもとで動いているかに興味を持っていたのだと思います。ただ家族的類似については、私たちが言葉の概念を定義づけて使っているのではなく、ステレオタイプのようなものを使って概念を把握していることを言っているので、ある意味では実際にどうなっているのかという問題意識に近づいてきます。

都築 認知学者であるモーテン・クリスチャンセンとニック・チェイターは『言語はこうして生まれる:「即興する脳」とジェスチャーゲーム』(新潮社)で、クック船長が言葉の通じない島民と出会い、身振り手振りでジェスチャーをするなかから相手に敵意がないことと、贈り物を交換しあうことを確認する例などをひいて、私たちは言語を即興的に生み出しているのだと主張しつつ、チョムスキーやスティーブン・ピンカーの言語生得説を否定しています。

大谷 言語がそうしたやり取りから生まれるということですね。そこに直接関係するかどうかはわかりませんが、私たちのコミュニケーションは、かなり大雑把なイメージのやりとりで成り立ってしまうこともあります。そこで想像力をどのように用いるのかが重要なところです。言語理解においては、単にイメージを思い浮かべることや空想することでなく、意味の秩序のもとにシミュレーションをする想像力が大切ですし、そこに言語の重要な側面があります。

都築 私は、記号接地についてジャック・ラカンのいう「シニフィアン(記号表現)の連鎖」を思い出します。言葉を説明するために言葉を使って、それを説明するために言葉を使って……というように複数のシニフィアンがあるなかで、シニフィエ(記号内容)とシニフィアンの結びつきは流動的でシニフィアンどうしの関係性がむしろ重要だという考え方が、LLMの考え方と似ていると考えています。1回目でふれた『言語の本質』でも認知科学者スティーブン・ハルナッドの(記号で記号を説明するような事態はメリーゴーラウンドのように終着がないという)「記号のメリーゴーラウンド」という、よく似た考えを軸にして記号接地を論じています。

大谷 記号接地というのは、LLMはある種のパターン認識を行っているのであるから、どこかで現実と結びつかなければならないけれど、それがどこで結びつくかということですね。先ほどの例でいうとChatGPTそのものは身体を持たないけれど、学習しているデータには、それを書き込んだ人の身体が反映されている。顔がみえないけれど、記号接地はそこでなされているかもしれない。

都築 記号接地は「シンボル・グラウンディグ」という言い方でAI研究でも大きな課題とされてきましたが、LLMが文字列だけでなく画像データや音声データなど他の感覚を学習させてマルチモーダル化すると物理的なグラウンディングの余地は広がるかもしれませんね。

1 2 3