人工知能+ロボットが社会を変える―フィジカルAIの最先端 尾形 哲也氏に聞く
第3回 「一家に1台、一生涯寄り添うロボット」の実現に向けて
エンジニアリングに卓越するといわれる日本は、継続学習やエネルギー効率といった限界を越えてフィジカルAIの主導権を握れるか。尾形氏の主導するロボット基盤モデル構築は、その可能性を拓くものである。データ循環型エコシステムが、知のインフラを形づくろうとしている。
取材:2026年1月20日 早稲田大学西早稲田キャンパス尾形哲也研究室
尾形 哲也(おがた てつや)
早稲田大学理工学術院基幹理工学部表現工学科教授。博士(工学)。早稲田大学次世代ロボット研究機構AIロボット研究所所長。AIロボット協会(AIRoA)理事長。国立情報学研究所大規模言語モデル研究開発センター客員教授。早稲田大学理工学部助手、理化学研究所脳科学総合研究センター研究員、京都大学大学院情報学研究科講師及び同准教授を経て、現職。日本ロボット学会理事、人工知能学会理事などを歴任。2025年よりAIロボット協会理事長などを兼任。JST CREST「実環境知能システム」領域研究総括。深層学習、生成AIに代表される神経回路モデルとロボットシステムを用いた認知発達ロボティクス研究、特に予測学習、模倣学習、マルチモーダル統合、言語学習、コミュニケーションなどの研究に従事。2021年IEEE ICRA2021 Best Paper Award In Cognitive Science、2023年文部科学大臣表彰科学技術賞(研究部門)など受賞。著書『ディープラーニングがロボットを変える』(日刊工業新聞社)のほか、『〈こころ〉とアーティフィシャル・マインド』(創元社)、『発達ロボティクスハンドブック』(福村出版)など共著多数。
目次
フィジカルAIの基盤モデルを国産で
――Transformerをはじめとする現在の生成AIモデルが苦手とすることはありますか。
尾形 継続学習といっても、次々に知識を追加していくことは得意ではありません。
――基盤モデルを1度つくると、チューニングはできるけれど、人間のように学習成果を積み重ねることが難しいということでしょうか。
尾形 現在のAI全てにおける大きな問題の一つは、学習データセットが一定以上の大きさで変わるとファインチューニングなどの方法では対応しきれなくなる点にあります。結局、はじめから学習をしなおすことになるのです。対して人間の場合は、後から新しい知識が入ってきて、しかもそれがある程度過去の知識と矛盾していても、うまく融合して処理してしまいます。いまのAIにはこの能力が決定的に欠けています。また、必要なエネルギーの量が膨大で、本当に先端のマルチモーダル基盤モデルを作ろうとすると、原子炉1個分必要になるとも言われます。人間は空腹になれば食事をしますが、決してそのような非効率なエネルギー消費をすることはありません。そう考えると、AIも人間の知能を考えていく(参考にする)という方向に寄っていかなければいけないのではと考えます。
しかし、現在のトップレベルAI、人間の数学者が解けなかった難題を解くような、ある種特殊な知能を競っています。競争の激しいAI企業は人間の知能に寄せる動機付けは少ないかも、とも思います。これからフィジカルAIが重要になって、より人間の感覚に近づいてくると思いますから、その際に発達モデルのような基礎研究を、どのタイミングでマージするのか、もしくはマージしないまま進んでいくのかということは気になります。
――そうした場合に、主要な基盤モデルがTransformerの一つだけでは、取りうる手段が狭くなる気もします。
尾形 基盤モデルは急激な発展を遂げつつも、まだ途上だとも言えます。私たちは松尾豊先生をはじめとする有力なメンバーといっしょにAIRoA(AI Robot Association:AIロボット協会)を2024年に立ち上げ、独自のデータ収集と基盤モデル開発を行っています。経済産業省とNEDO(New Energy and Industrial Technology Development Organization:国立研究開発法人新エネルギー・産業技術総合開発機構)の「ポスト5G情報通信システム基盤強化研究開発事業/ロボティクス分野の生成AI基盤モデルの開発に向けたデータプラットフォームに係る開発」に採択されて、大きな支援を受けています。また新たにソフトバンクやPFN(プリファード・ネットワークス)が参画する新会社に2兆円規模という、ちょっと想像できない出資の計画も別にあります。私たちも経験値を積んで大きな成果を残していきたいと思っています。これは、認知発達ロボティクスというアカデミア研究よりも、データを集めて学習させ、汎化させるという社会実装プロセスです。海外とのAI競争において、一定の開発を進めることは重要だということです。
――勝たないまでも、伍するものをつくろうということですね。
尾形 極端にたとえれば、いまの日本は明治維新に近い状況だと思っています。日本の武具が素晴らしいことは今でもその通りですが、目の前に海外の大砲(AI)がやってきたらどう考えるか。一部の方々は、自分たちには作れないので諦めて輸入(依存)しようと言われる。しかし、明治の人たちは諦めることをせず、それを手に入れて、謙虚に勉強しつつ再現していったのです。その後の自動車にしてもロケットにしても同じだったでしょう。私は、いまの日本はそのような段階だと考えています。もちろん認知発達ロボティクスなど日本なりの強みもあります。End-to-endの制御も私たちは大分前に実現しているのです。そういった経験を汲み入れつつ海外に学ぶのがいまのタイミングだと思っています。加えて若い方々を海外に送る枠組みもつくろうと考えています。
――アカデミックな取り組みというよりも、産業育成に近いのでしょうか。
尾形 大学教員がする仕事でないことは百も承知ですが、「学会」ではできない要素が多いので、「協会」という枠組みを設立しました。ロボットではなくフィジカルAIになっていることと、学会ではなく協会として推進する必要があるわけです。松尾先生がディープラーニング協会を設立した経緯とよく似ていると思っています。
AIRoA(AIロボット協会)が考えるデータエコシステム
――こちらのフローでいうと、まず基盤モデルと試験用ロボットをAIRoAで開発されて貸し出し、企業はその基盤モデルとロボットを用いて社会実装を行ったうえで、データをAIRoAにフィードバックして、そのデータから基盤モデルをアップデートするということですね。各企業がそれぞれに基盤モデルとロボットをつくるプロセスが複線化するところを共通にするという。
尾形 そうですね。ロボットと基盤モデルに関しては共同してつくり、企業の方々がノウハウを用いてご自身でつくられるようになっても構わないと思います。最初のベースラインを私たちがつくり、オープンなものを使っていただくなかで、キャッチアップしていただきたいということです。現状はアメリカと中国だけが明確に飛び抜けていて、ほかは“どんぐりの背比べ”の状況です。ロボットについては日本に優位があるので、第3極として世界の真ん中あたりのポジションにはいけるのではないかと考えています。
――現場レベルでの声を元に基盤モデルを再構築するわけですね。
尾形 現場レベルのデータは秘匿性が高く全てを手に入ることは想定していません。しかしそれに関連するデータを一部でも提供いただき、先に基盤モデル学習に入れておけばファインチューニングしたときに現場で利用できるということは十分起こり得ます。
また2026年にはロボットハードウェアコンペを行い、勝ったチームのロボットはもう何十台か購入し、協会のデータ収集に使う、という計画もあります。十分に宣伝をするつもりなので、1位のチームだけでなく、ハードウェアコンペで上位になったロボットが売れていくという可能性もあります。
――理事の1人である谷口忠大先生には、本サイトでインタビュー取材(https://it-hihyou.com/recommended/50417/)をさせていただきました。
尾形 谷口先生に最初に会ったのは彼が京都大学の博士課程の学生ときにICDLという国際会議に出席したときでした。私も京都大学にいたときで、その後、彼の在籍していた椹木研究室の研究プロジェクトに参画したり、発達ロボティクスに関する翻訳本を共著で出したりと、20年ほどの付き合いになります。実は、日本のアカデミアで機械学習+ロボットの研究でキャリアのある人は少ないのです。彼は会社の運営もできますから、アカデミアとビジネスを架橋することも期待できます。
――谷口先生は、今後CPC(Collective Predictive Coding:集合的予測符号化)の理論をグランドセオリーにするために、エンジニアリングを用いて実際に作動することを示したいとおっしゃっていました。ロボットや人間が連携することを考えるとCPCの新しい発見や証明もできるのではないかと思います。
尾形 谷口先生のおっしゃることは、思想としてもよくわかりますし、気持ちとしても共感します。また、松尾先生のように社会実装や経営戦略に長けた方といっしょに推進することは面白いことになると思います。
スマートロボットが活躍する場
――スマートロボットへのアプローチについても教えてください。
尾形 ムーンショットの目標3で私が提唱した「スマートロボット」は、個別のデバイスがまとまったスマートフォンと同じように、個別のロボット機能が集まった汎用ロボットのことです。ヒト型ロボットの面白さは、その汎用性にあります。人間の住環境を変えなくてよいですし、1台分のスペースですむのも好都合です。たとえば調理をするロボットの場合、ヒト型ロボットの場合はキッチンのなかだけで完結します。
汎用性を担保するだけなら他の形態も考えられるわけですが、現在の生成AIは、言語や音楽など全て「人間の制作物」を学習していますので、その知能は人間に一定レベルで近いものになっています。そのAIが持つ体の形態はヒト型がよいはずだろうというのがあります。
このロボットは、ムーンショットで開発中のAIREC(AI-driven Robot for Embrace and Care)というスマートロボットです。
Dry-AIREC応用動作:スクランブルエッグ調理
尾形 この研究を早稲田で進めたのは私が主に博士研究の指導した斎藤菜美子さんです。早稲田大学大学院を終了したのちにエディンバラ大学で学位を取り、イギリスのアラン・チューリング・インスティテュートで研究をしたのち、現在はMicrosoft AsiaでPhysical AIの研究をされています。
――高齢化と労働力不足がいわれるなか、介護分野でのAIロボットも待たれていると思います。
尾形 いままで福祉ロボットは数多くありましたが、普及しなかった理由が2つあると考えています。1つは用途ごとにデバイスが必要だったために、広い設置スペースが必要だったことです。これは汎用型のロボットにすることで解決できます。もう1つは保険法などの規制が高かったことです。しかし今後、厚生労働省が現在の人手不足を考慮して、基準を緩和していく可能性が高いと考えています。
――入浴や排泄などで異性に介助されたくないという、介護を受ける側のニーズもありますよね。
尾形 ムーンショットで国際比較をしたところ、ロボットによる介護の是非については国ごとに差がありました。しかし今後は、徐々に統一化されていくだろうと思います。日本では当然ながらかなり需要が高く、ぜひ進めてほしいという声をいただいています。
昨年の大阪万博では、Dry-AIRECという大型のヒューマノイドと、AIREC-Basicという小型ヒューマノイドを展示しました。大型のDry-AIRECは、片手で20キロぐらい持ち上げられだけの力を持たせています。同時に全部の関節を柔らかく動かし人間と接触した作業もできます。万博では靴下履きの補助タスクをしました。また小型のAIREC-Basicは、洗濯物を洗濯機から取り出すデモと畳むデモを披露しました。
今後、AIREC-Basicのような簡易型のセミヒューマノイドが、様々な用途に使われると想定しています。介護士施設や病院などで、きつい・汚い・危険という3K業務を行わせることが想定されます。プロの人間ほどの精度を求められない単純な作業を時間をかけて行うイメージです。
大人ほど能力ではなくとも、子供の手伝いのように、いてくれると助かるというレベルで普及する可能性は非常に高いと思っています。
――ロボット自体が再帰的にデータを選択して学習するのは、まだ先の話になりそうでしょうか。
尾形 それは現在考えうる最も困難な課題です。いまのところは人が操縦して、成功したデータを使って追加トレーニング(Post Training)しています。大阪万博でも2週間の公開期間中に追加学習し、畳む精度やスピードが上がりましたが、これが自動にできるようになることが、まさに発達なのです。
――よい/悪いを判断して報酬関数を設定するのは人間の側で行うということですね。
尾形 報酬関数の設計は人間が与えられる、としても実はかなり難しい課題なのです。囲碁や将棋などが強化学習に向いているのは、勝ち負け(報酬関数)が単純だからです。また歩くことも、転ばなければよい、という基準でよければ比較的シンプルな設計で済みます。
しかし、実世界にある柔軟物や粘性流体などをロボットによって操作させるタスクは、単純には報酬関数は決めづらいのです。
先ほど説明した自由エネルギー原理における運動生成のプロセスにも、いわゆる外部からの「最適な」目的関数を決めておらず、あくまで「予測誤差(不確実性)の最小化の規範」によっているということが重要です。
例えば、私は右利きですが、左側にあるものがあるときに、通常設定するような「エネルギー報酬系」でいえば左手で取るべきです。しかし実際の右利きの人間は、通常右手で取ります。なぜかというと、右手のほうが予測しやすく(予測不確実性が小さく)、コントロールしやすいからです。
現実の世の中で起こっていることのほとんどは、明示的な報酬関数を決められないことで占められています。もしも報酬系がクリアに決められたときには、私たちはそれを「ゲーム」や「競技」と呼ぶわけです。なにが報酬系なのかがわからないなかで自ら世界のイメージをつくり、そのイメージに基づいて自分の行動を調節していくという世界観が重要です。改めて確かに強化学習は非常に重要なアプローチですが、強化学習が簡単に適用できる問題は、実はとても稀なのです。