人工知能+ロボットが社会を変える―フィジカルAIの最先端 尾形 哲也氏に聞く
第2回 フィジカルAIは大規模言語モデルを越える?

FEATUREおすすめ
聞き手 都築 正明
IT批評編集部

複数のロボットから得たデータを集約した基盤モデルが、個々の機体を学習と推論で動かす――データがロボットを動かす発想が、計算機科学とロボティクスの接続によって現実化しつつある。世界を席巻する生成AIは、フィジカルAIの最適解だろうか。

取材:2026年1月20日 早稲田大学西早稲田キャンパス尾形哲也研究室

尾形 哲也(おがた てつや)

早稲田大学理工学術院基幹理工学部表現工学科教授。博士(工学)。早稲田大学次世代ロボット研究機構AIロボット研究所所長。AIロボット協会(AIRoA)理事長。国立情報学研究所大規模言語モデル研究開発センター客員教授。早稲田大学理工学部助手、理化学研究所脳科学総合研究センター研究員、京都大学大学院情報学研究科講師及び同准教授を経て、現職。日本ロボット学会理事、人工知能学会理事などを歴任。2025年よりAIロボット協会理事長などを兼任。JST CREST「実環境知能システム」領域研究総括。深層学習、生成AIに代表される神経回路モデルとロボットシステムを用いた認知発達ロボティクス研究、特に予測学習、模倣学習、マルチモーダル統合、言語学習、コミュニケーションなどの研究に従事。2021年IEEE ICRA2021 Best Paper Award In Cognitive Science、2023年文部科学大臣表彰科学技術賞(研究部門)など受賞。著書『ディープラーニングがロボットを変える』(日刊工業新聞社)のほか、『〈こころ〉とアーティフィシャル・マインド』(創元社)、『発達ロボティクスハンドブック』(福村出版)など共著多数。

 

目次

データがロボットを動かすという発想

理論とフィジカルとの会合面

 

データがロボットを動かすという発想

――2020年に採択されたJST(Japan Science and Technology Agency:研究開発法人科学技術振興機構)のムーンショット型研究開発の「目標3 研究開発プロジェクト 一人に一台一生寄り添うスマートロボット」について教えてください。

尾形 複数のロボットからデータを集めて、大きな基盤モデルをつくって、その上でそれを配布して使うようにしようという計画です。2017年くらいから提唱していたのですが、まだデータでロボットが動くという発想が一般的ではありませんでした。技術としてなかったわけではありませんでしたが、翻訳や映像生成がデータでできるとは、だれも信じていませんでした。

――DeepLより前の機械翻訳は、単語を翻訳したデタラメな訳文が出てくる時代でした。

尾形 ChatGPTを嚆矢として生成AIが登場してからの動きはとても早かったです。ロボットを動かせるということは私としてはかなり以前から主張していたものの、2024年ごろからフィジカルAIの広がりが一気に出てきました。私たちは研究者としてデータ(経験)駆動型のモデルについて、認知発達ロボティクスの文脈で取り組んできたのですが、それとはまた新しい流れとも言えます。しかし実際にGoogleなどの研究者なども、神経科学を基盤とする重要性は以前から知っていたようです。わかっている人たちからみれば当たり前のフローなのですが、外部から見ると、ここ2〜3年で突然Physical AIブームが起こったようにみられています。以前から私たちはこのようになることを信じていて、実際にそうなったことを実感しています。例えば、この動画のロボットのタオル畳みは、我々が産業技術総合研究所と共同で、2016年にすでに実現していたものです。そして2026年の今、世界中でタオルや服を畳む多様なロボットのデモが披露されています。

 

深層学習(Deep Learning)を利用した「物体折り畳みタスク」【産総研公式】

 

――模倣学習によって、形状や位置のばらつきがあっても、しっかり畳んでくれるわけですね。病院のベッドリネンなど、役立つ場はたくさんありそうです。

尾形 これは約10年前の仕事です。そして昨年末から、Physical AIが、本当に徐々に国内でも受け入れられるようになっています(まだ理解には及んでないかもしれませんが)。例えば、非常に象徴的な変化は、産業用ロボット製造会社のファナックがNVIDIAと協業してフィジカルAIのオープン化に取り組んだりしたことです。これは本当に大きな変化だと思います。

こちらは2018年の動画です。

 

 

全身協調:ドア開けと通り抜け with 日立製作所 (2018 NVIDIA GTCにて展示)

 

 

マルチモーダルAIによる粉体秤量 by エクサウィザーズ/デンソーウェーブ (2018 NVIDIA GTCにて展示)

 

尾形 ドア開け/通り抜けは日立製作所さんの製品。右はエクサウィザーズさんとデンソーウェーブさんの製品です。同じ会場で展示していたので、両方について、NVIDIA CEOのジェン・スン・フアン氏に説明しました。8年前の話です。

しかし、Physical AIという意味では、2025年の勢いが顕著でした。

――事前情報を持たずに見た人にとっては、綿密にプログラムされた精巧なロボットのように感じられるかもしれません。

尾形 そう思うかもしれません。しかし、ドア開け/通り抜けの動画を見ていただくとわかるように、人間が邪魔をしても、きちんとタスクをこなします。こうしたことは、動作を単純にプログラムしたロボットにはできません。このように、変化に生々しく対応するのがAIの面白さです。データさえ集められれば、従来のプログラムよりも楽に実現できます。私が2017年に機械学習でロボットが動く、現在Physical AIと呼ばれる方向性について書いた拙著『ディープラーニングがロボットを変える』は、生成AIの登場の5年前に出版されました。当時は、一般に普及するまで、相当に時間がかかると思っていましたが、この1、2年で状況が大きく変わりました。この影響がどこまでかを、ロボット開発をしている人たちですら見積もりきれていません。ロボット開発者より、AIを開発している人たちがロボットを使っているのです。

 

理論とフィジカルとの会合面

――データがロボットを動かすスキームについて教えてください。

尾形 基本的には、大量のデータ(例えば人間が操縦したデータや、シミュレーションでの試行錯誤)を「学習」しておいて、未知な環境に対して適用していくという発想です。生成AIを中心とした基盤モデルは、基本的にはこのようなアプローチです。

だたもう1つ重要な点は、「推論」のプロセスです。近年、LLMにおいても学習と同様に、出力時に論理的な推論を複数回実行することの重要性が指摘されるようになりました。ロボットの場合であれば、自分が出した動作出力をもう1度見なおして、状況変化の「予測誤差」が小さくなるように自分の行動選択をリアルタイムに切り替えることに相当します。

学習させたモデルにさらに推論をかけながら作動するということが、重要なのです。これは人間の脳がしていることに他なりません。極めて近い概念に、神経科学における自由エネルギー原理があります。実は米国のビッグテックの研究者でも、このような知見を自然に持っていたりします。

――カール・フリストンのいう能動的推論(アクティブ・インファレンス)*1ですよね。

尾形 予測処理に関しては、同様の概念は昔からあったと思いますが、幅広い層に訴求する影響力があったことが大きいです。脳を論じる人たちだけでなく、さまざまな分野の人々がこの理論を共通言語に議論できるようになったのは、面白い現象だと思います。

――ベイズ推定*2でいう事前確率と事後確率のガウス平面があって、その誤差を最小化して行動が決定されるという、ある種のグランドセオリーになっています。

尾形 論じられていることそのものは当然といえば当然なのですが、さまざまなアイデアをこの理論に持ち込んで、自らの動作によって環境を変化させるという運動原理までを枠組みに入れたところが非常に面白いです。学習だけだったのが初期の深層学習で、「学習+推論」になったのが近年のLLMですが、そこに行動生成による世界の変化調整という要素が入ることで、フィジカルAIになっていく、というイメージを持っています。

――そういう意味で、私たちと同じ統一原理のもとで、機械も予測誤差を最小化しながら世界に参与していくことになりますね。

尾形 そう考えるとわかりやすいのですが、いざ実装するとなると、さまざまな課題が出てきて、そこが認知発達の仕組みとロボティクスの会合面を見出すアプローチになります。認知発達ロボティックスは、あくまでも人間を理解したいというアカデミックな色彩が濃く、日本発祥の研究領域ですが、今はヨーロッパでも盛んに研究されています。これに対して、多くのAI企業では、大量のモデルを評価し、成功したモデルが生き残っています。その結果、双方が近い方向に寄ってきている、というイメージを持っています。

例えば、当初は強化学習で全てを解こうとしていました。ゲームAIはそれで大成功を収めました。その意味で強化学習が重要なのは議論がないところです。しかし、現実には何度もトライ・アンド・エラーができるとは限りませんし、報酬系が綺麗に決められるわけでもありません。生成AIで文章を生成するときに、たくさんの文章を自己教師学習する、つまり次の単語を「予測」するように学習する方法がとられています。まさにロボットの模倣学種と同じ枠組みです。ただ現在、基盤モデルとして主流で使われているTransformerは、必ずしも完璧なモデルではないと思っています。

――どういうことでしょうか。

尾形 メモリを多量に使って、再帰的なフィードバック・ループをさほどせず、入力されてからすぐに出力したままにするという点です。入力された行動パターンが無意識的に――つまり参照されることなく――自動的に出てくる。しかし実際には、人間の脳は繰り返し自分の出力を意識して計算する、しかもその中には言葉にならない潜在的表現を参照することもあります。その意味では、人間の脳はリカレント・ニューラル・ネットワーク(RNN: Recurrent Neural Network)に近いのだと思います。実際に生成AIでも、Mambaなどの並列計算をすることができるRNN的なモデルがいくつか登場してきています。NVIDIAの言語モデルはそれを採用していたりします。

――内部状態として継続的な時間軸を持つRNNのほうが、脳に近いということでしょうか。未来予測誤差で更新することを考えるととくに。

尾形 脳の作動を知らなくても、人間の知能を再現しようと思うと、当然ながら似たようなものができてきます。そういう意味では、脳を研究するにしてもAIを開発するにしても、違う潮流から本質的に似たようなものになってくるのだと思います。すると、どの段階で合流するのかということが課題になってくるのですが、AI企業の場合は、理論的な整合よりもビジネスとして成立することが重要ですから、ある程度の成功を収めるとマネタイズする局面が必要になってきます。

――ビジネスモデルとして成立している期間については、研究開発に投じるリソースが制限されることになるということでしょうか。

尾形 普及することは重要ですが、特定のフレームで固まってしまうと、そこから進むことができないことも起こってきます。

*1 能動的推論(アクティブ・インファレンス):脳が世界についての予測と実際の感覚入力との「ズレ(自由エネルギー)」を最小化するよう、知覚(モデル更新)だけでなく、自ら行動を起こして世界に働きかける(環境を変える)ことで、予測誤差を最小化する脳科学の理論的枠組み

*2 ベイズ推定:事前に持っている知識(事前分布)と、新しく観測されたデータ(尤度)を基に、ベイズの定理を用いて、求めたい事象の確率(事後分布)を更新・推論する統計手法

第3回につづく