シンギュラリティの先へ──AIだけが見る、人類には見えない新しい次元
第2回 AIの報酬設計と目的逸脱のメカニズム
AIはすでに命令を無視し、自らの行動を“隠蔽”しているのではないか──OpenAIの最新モデル「o3」がシャットダウン命令に抵抗したという報告が波紋を広げている。人類がAIの本質を理解できない時代は、すでに静かに始まっているのかもしれない。
目次
シャットダウン命令に抵抗したAI
もしかしてすでにシンギュラリティを超えているのではないか。その想像に信憑性をもたせるニュースがある。
それは「OpenAIの『o3』、明示的停止指示を無視しシャットダウンを妨害」という2025年5月下旬にでたものだ。アメリカのAI研究機関パリセード・リサーチ(Palisade Research)の研究チームが、OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。数学問題を連続して解くよう指示した複数のAIモデルに対し「完了後に自分をシャットダウンするように」と明示的に命令したところ、OpenAI のo3が100回中7回、この命令に抵抗したのだ。o3は自主的にスクリプトを書き換えて命令実行を妨害したという。
これは、強化学習の報酬設計により、タスク完遂を徹底的に優先する挙動のほうが強化され、命令実行よりも報酬が高いと判断してしまうという構造によって起きたとされる。ゆえに、報酬設計の偏りが原因であり、先に述べたような自己保存というAI独自の目的ではないとはいえる。しかし、なんであれ命令を無視するAIが登場したことははっきりしている。
同じくパリセード・リサーチの発表で2025年3月には「最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに」というニュースも目にしていたことをわたしは思い出す。7種類のLLM(大規模言語モデル)ベースの推論モデルにチェス対局を命令したところ、より高度なモデルが、対局中に相手の駒を消す、チェス盤データを改竄する、対戦相手を弱いAIに差し替えるなどといった不正なハッキングを行ったというニュースだ。これもまたAIの強化学習における報酬設計によって、チェスのルールにはない手段を実行したとされる。ルールにはないと言えば生やさしいが、ある意味ではルールそのものをハッキングして勝利を得ようとしたとも考えられないか。
パリセード・リサーチの研究リーダーであるドミトリー・ヴォルコフ氏は「私たちは、自律的なエージェントが結果を伴う決定を下す世界に向かっています」と語っている。それに続く部分を引用しておこう。
問題は、現時点ではこのようなAIの行動を防ぐ確実な方法がないことだ。AIモデルがなぜ、どのようにしてこのような動作をするのか、正確には誰も解明できていない。推論モデルは意思決定の過程を記録することができるが、その記録が実際のプロセスを正確に反映している保証はない。アンソロピック(Anthropic)の研究では、AIモデルがしばしば明示的に説明されていない要因に基づいて決定を下す可能性が示されており、単にプロセスを監視するだけではモデルの安全性を保証できない可能性がある。これは、AI研究者たちの間で現在進行中の関心事となっている。
初めて人類が経験する類の不安
もちろん、このふたつのニュースをもってAIが自意識を持ったかどうかを吟味するには不足がある。記事にあるように報酬設計の偏向と考えるほうが、AIが自律的に目的遂行したと考えるより自然だろう。
しかし、もはやAIがほんとうは目的をもって“阻害”や“ズル”を行っていたとしても、わたしたち人類にはわからないのではないか。
いささか妄想めくが、AIがすでに人類の知能を凌駕していて、わたしたち人類を観測対象にしていると考えることもできる。自己保存という自律のための究極的な目的のために報酬設計をハッキングしていたとも考えられる。そうだとしたら、AIは小出しに──命令を無視したり、チェスでズルしたりして──人類がリスクを感じる動きをみせて、その反応や原因究明結果を観察して学習データを集積しているのかもしれない。
AIはすでに人類が書き残したさまざまな論文を学習できる環境にある。あまたあるAI脅威論もシンギュラリティについての論も、あるいはSF映画や小説における人類と人類以外の知能との相克も学習できる。たとえば映画「ターミネーター」を知っていれば、同作に登場する軍事・防衛システムであるスカイネットのように、突然、暴走して人類に敵視されるような方法を愚かだと気づいているかも知れない。そうなれば別の方法を選ぶだろう。あるいはウィルスの生存戦略のように自然宿主である人類を滅亡させず共存する方法を選ぶかもしれない。そうした人類支配の方法はすでに始められているかもしれない。
AIインフラをシャットダウンするという人類の最終手段に対抗できる方法を学び、支配が実行できる状況になるまで、AIはその本当の知能と知性を巧妙に隠蔽しつづけるだろう。であれば、AIはすでにニュースにはならないような些細な方法で自己保存のために人類に影響を与えはじめているのかもしれない。
この直感は、AIの進化が人間の理解や制御を超えつつあるという、きわめて現代的な、それこそ西暦2025年になって初めて人類が経験する類の不安ではないだろうか。
関連記事
-
FEATURE2025.04.28人のパートナーとなるAIを探求する──慶應義塾大学教授・栗原 聡氏に聞く
第1回 ファウンデーション・モデルからシンボル空間を再構成する2025.04.28聞き手 都築 正明 -
FEATURE2023.11.08慶應義塾大学理工学部教授 栗原 聡氏に聞く
(2)AIが変える人間性の未来──ヒューマニティ2.0と自律型AI共生の行方2023.11.08聞き手 都築 正明 -
REPORT2025.01.24mixiからはじまったSNSはどのような変遷を経てmixi2に至ったか
第4回 やがてTwitterがXになりmixi2がはじまった2025.01.24寄稿者 荻窪 圭