人工知能+ロボットが社会を変える―フィジカルAIの最先端 尾形 哲也氏に聞く
第4回 認知発達の機序とフィジカルAIの持つ可能性
触覚や力覚といった身体的知能をどう基盤モデルに統合するのか――。ソフトロボティクスと認知発達ロボティクスとの接続は、言語中心AIの限界を超え、実世界と相互作用しつつ学ぶ人工知能への転換点となる。身体・経験・データを再編する、フィジカルAIの新たな設計思想が立ち上がろうとしている。
取材:2026年1月20日 早稲田大学西早稲田キャンパス尾形哲也研究室
尾形 哲也(おがた てつや)
早稲田大学理工学術院基幹理工学部表現工学科教授。博士(工学)。早稲田大学次世代ロボット研究機構AIロボット研究所所長。AIロボット協会(AIRoA)理事長。国立情報学研究所大規模言語モデル研究開発センター客員教授。早稲田大学理工学部助手、理化学研究所脳科学総合研究センター研究員、京都大学大学院情報学研究科講師及び同准教授を経て、現職。日本ロボット学会理事、人工知能学会理事などを歴任。2025年よりAIロボット協会理事長などを兼任。JST CREST「実環境知能システム」領域研究総括。深層学習、生成AIに代表される神経回路モデルとロボットシステムを用いた認知発達ロボティクス研究、特に予測学習、模倣学習、マルチモーダル統合、言語学習、コミュニケーションなどの研究に従事。2021年IEEE ICRA2021 Best Paper Award In Cognitive Science、2023年文部科学大臣表彰科学技術賞(研究部門)など受賞。著書『ディープラーニングがロボットを変える』(日刊工業新聞社)のほか、『〈こころ〉とアーティフィシャル・マインド』(創元社)、『発達ロボティクスハンドブック』(福村出版)など共著多数。
目次
ソフトロボティクスと基盤モデルを統合する
――ものを把持したり、外部のものに作用したりするには、柔らかく触れるロボットが必要ですね。
尾形 最終的にはフィジカルAIでは、実世界での柔らかさや力の入れ具合の理解が重要になると考えています。実は、いまの基盤モデルには、力を直接扱うモデルは多くありません。もともとAIを扱っていたのは画像を扱う研究者が中心でした。そして大規模自然言語モデル(LLM)を扱う研究者が加わり、現在はVision Language Model (VLM) 全盛の時代です。その研究者たちがロボットに参入したことで、Vision Language Action (VLA) Modelが研究されるようになりました。
しかし、人間の発達からみると視覚は生後しばらく経ってから機能しますし、言語はもっと後の段階で学習/獲得されます。生前、つまり胎児のときの主な感覚は、力覚と触覚、そして聴覚なのです。胎内で自分の顔を触った感覚や流体の力の感覚が先にあり、そこから身体イメージをつくる段階が先にきます。生まれてからも視覚イメージができていないので、ものがきちんと見えるまでは時間がかかります。一方、胎内でも声はわかるので、音は早い段階から聞いています。認知発達ロボティクスの視点からみると、VLMからActionというのは順番が真逆なのです。
――発達レベルでいうと上位のところから手をつけているので、ローレベルのことがおざなりになっている状態ということですね。
尾形 触覚や力覚が重要だということには、もちろんフィジカル・インテリジェンスの研究者たちも気がついています(画像だけで十分という研究者もおられますが)。ただ本当に最近になってからです。
これらの感覚の違いは、タイムスケールです。言語はとても長期間使うことができます。ビジョンも言語ほどではありませんが比較的長めです。しかし私たちが動くときの触角や力覚は早いのです。そうしたモダリティの特性があって、ノードも異なる処理をしているので、そこを反映したモデルになるべきです。その意味でのフィジカルAIはまだまだ途上です。
触覚を入れた多指ハンドがどんどん製品化されていますが、Physical AIとの組み合わせの研究はこれからなのです。
――先生が研究総括をされている科学技術振興機構(JST)のCREST(Core Research for Evolutionary Science and Technology:進化的な科学技術のための核心的研究)「実環境に柔軟に対応できる知能システムに関する研究開発」の領域では、そこを中心に議論するのですね。
尾形 触覚だけではないですが、現在のVLAなどのロボット基盤モデルにおける多様な問題をアカデミックの視点から取り組める方々に入っていただいています。例えばソフトロボティクスもその対象の一つですね。
――そうすると、そこから生まれる基盤モデルはTransformerなどの言語モデルとの齟齬が出てくる可能性もあります。
尾形 前述しましたがTransformerのような大きなメモリが必要なモデルというのは人と比べるとおかしいですし、ロボットに実装するのが大変な上に計算時間もかかります。再帰的にフィードバック(推論)をかけながら動くことには向かないアーキテクチャだと思っています。
――ソフトロボティクスについては日本にも先行研究が多そうです。
尾形 通常の産業用ロボットは高いギア比に基づく厳密な位置制御が重視されていました。柔軟なロボットはさほど注目されてきませんでした。しかし、飛んだり跳ねたりする現在の中国のヒューマノイドロボットにみられるポイントは、低ギア比のダイレクトモータを用いて関節を必要に応じて柔らかくしていることです。バックドライバビリティ(Backdrivability:逆駆動性)といいますが、ギア比を落とし位置情報でなくトルクで制御することで、衝撃に対する強さや環境との馴染やすさが生まれました。最も大きかった効果は、シミュレーションとの相性です。ギアの影響を最小限にすることで、コンピュータ内で精度の高いロボットモデルを構築することができ、シミュレーションにおいて訓練ができるようになりました。ここは強化学習との相性がよいところです。ロボットを再現すればよく、環境は再現しなくてよいのですから。トレーニングするときも、ロボットは綺麗に再現するものの、現実ではない環境や現実よりはるかに厳しい環境をつくってトレーニングさせることで、さまざまなことができるようになっています。この発想はソフトロボティクスと相性がよいはずだと考えています。
CRESTでは、他にも多様な研究テーマがターゲットになりますが、AIに合わせたロボットハードの再設計の1つの方向性として、こういった研究の拡張もあるかもしれません。
いまのAIができること/できていないこと
――マルチモーダルを統合するには、言語中心の基盤モデルでは迂遠になってしまうわけですね。
尾形 LLMからスタートすることもできるでしょうが、近年の研究では、モダリティをなにかに絞ったモデルを作るのではなく、最初からすべてまとめて考えることが常識になりつつあります。世界モデル*1とも繋がる考えかたです。本来、現在のLLMが特殊なはずで、話すことができるもの、というのは見えることができる。見ることができるものは、ほぼ触ることができます。そのものは何か音も付随するでしょう。これがすべて実世界にあって、しかもリアルタイムで同期しています。ですから、見えているもの、聞こえているものと、触覚やアクションが分別される必要はない。同じものに別のチャネルで接しているだけです。確かに言語は少し特殊で、たとえば「本」という言葉については触る前から「本」ということはできますし、触った後でも「本」と言うことができます。また現物がそこになくても本をイメージすることができます。その意味で、言語は私たちの体からは「時空間的」に離れたところにあるわけです。人間が言語を他の感覚に比べて最後に獲得する理由はここにあるのではと考えます。スタートに置くのは少し変なことかなと思っています。
――身体というよりは、表象のレベルになってくるわけですね。
尾形 言語やシンボルには、人間同士がコミュニケーションする際に、互いのバックグラウンドにある文脈をある程度排除しても通じるという特徴があります。実世界からはちょっと離れていて、それゆえに記号接地問題ということもでてきます。
LLMは文章だけを徹底的に教え込むと、言葉が現実世界の説明になっていて、あたかも世界を理解しているように振る舞うことができます。小説も書けて、現実世界の空間的なイメージだけではなく、他者のメンタリティも予測することができる(心の理論)。2025年、星新一賞の審査員を務めたのですが、約1600件の応募から最終審査に残った10作のうち1作は完全にAIに書かせたものでした。ChatGPT4のレベルで最終審査まで残るわけですから、数年したら受賞に至るのかもしれません。
2017年に『ディープラーニングがロボットを変える』を書いたときのイメージは、その後の方向性はほとんど当たっているのですが、全く外れたのがこの「言語だけで世界を理解できる(ように見える)」という点でした。「百聞は一見に如かず」だと思っていたのです。しかし“数十億聞”や“数百億聞”のデータを入れたらできてしまった。もちろん本当に世界を理解しているか、というのは議論がありますが、十分過ぎるほどの性能を示した。そこは驚きでした。
――言語コーパスや画像データは多いかもしれませんが、動きの学習データはそれほど多くないように思います。
尾形 言語ではなくYoutubeなどの動画を学習させることも流行ってはいますが、動画だけでは難しいと考えています。例えば「ゴンドラの猫」という有名な実験があります。

「ゴンドラの猫」の実験
尾形 これは、生まれたばかりの仔猫です。A(active)の猫は自分で歩いて周囲をみていきますが、P(passive)の猫は自分では歩かずに目の前のものが動くのをみているだけです。これをしばらく続けて学習させた後で――いまはこうしたかわいそうな実験は禁止されています――視覚を見ると、縦の線に反応するニューロンは、Aの猫にしか獲得されません。受動的にみているだけ、言い換えればYoutubeを眺めているだけでは学習できません。自分が動くことで映像を生成するプロセスを経ることで知覚が形成されるのです。
――映像との身体的な相互作用がなければ学習ができないということでしょうか。
尾形 世界が自分を動かしたというだけでなく、自分が世界を動かしたという感覚が重要です。もちろん膨大な動画をみせれば、世界観を学習できることはある程度証明されていますが、生物との学習とは異なるように思います。私たちが「世界モデル」というときは、第三者の持つ客観的な世界のモデルではなく、自らの行為を含む主観的なモデルなのです。
――認知を写し取る世界モデルさえあればよいというわけではないのですね。
尾形 模倣学習として人間の動作を見せるだけで、ロボットがそれを真似られるというストーリーが語られるケースがあります。しかし、人間にはできてロボットにはできないことは当然頻繁にあります。人間でも同じことで、例えば大谷翔平さんのホームランを観たからといって、自分がそのように打てるわけではありません。模倣学習としては、よい素材になってないわけです。見て学習するためには、見る側にそれを捉えられる自らの”実際の経験”が必要です。自分が動かす経験があれば、動画の意味がわかるわけです。大谷翔平さんは真似られなくても、他の人は真似られるかもしれないというのは、見たものが、自分のスキルや経験とマッチすることでできるという意味です。
――追体験するように、受容する素地があるからこそ感動できるわけですね。
尾形 実世界での経験がとても重要なので、実ロボットを使ってデータを集めようという話になってくるわけです。いまのロボット基盤モデルで必要なデータ量は少し多すぎるとは思いますが、いずれにしてもデータを集める枠組み自体は必要だと思っています。私たちが限られた世界とのインタラクションのなかでイメージを膨らませたり他者の動きを見たりして学習できる。でもその際には自身の経験が大切です。
*1 世界モデル: AIが周囲の環境(物理法則や因果関係)を内部にデジタルな箱庭として学習・構築し、未来の状況をシミュレーションして予測・推論するAI技術
*2 Robotics Transformer 2:Google DeepMindが開発した視覚および言語を行動に変換できる学習モデル