富士通研究所・白幡 晃一氏に聞く
(1)国産LLM開発に「富岳」で挑む
AIの精度を高める3つのファクター
桐原 先ほど「創発性」という言葉が出ましたが、これは演算量が決め手になるのですね。
白幡 はい。基盤モデルで1023 FLOPsの演算量の学習を行うと創発性が観測されます。創発性とは、AIがそれまで全くできなかったことが教えてもいないのに突然できるようになるようなことで、データ量と計算量だけ増やせば、この先もさまざまな能力を自然に獲得すると考えられています。GPTだけでなく他のモデルにおいても同様の規模で創発性かが観測されています。1023 FLOPsを超えていくとAIの精度が大きく改善されるのですね。
桐原 この演算量を演算速度で割ると学習に要する時間が出てくるのですね。
白幡 そうです。今回の研究では、高速化も重要なポイントになっていまして、従来のLLMの学習時間が150日かかるところを30日にまで短縮しようとしています。
桐原 スピードが速いということは、進化が速いということですね。
白幡 そうですね。学習時間に5カ月費やしていると、その間に次のGPTが出てくるかもしれない。高速化すると30日ぐらいでできるようになると見込んでいて、1カ月で回せるなら今年度中に何回か回せる可能性が出てきます。
桐原 スピードと計算量はトレードオフの関係と考えてよいのでしょうか。やはり量が多いほど時間がかかるということですか。
白幡 そうですね。計算量が大きいほどより時間がかかる。そこもいろいろ議論がありますよね。巨大なものをとにかく時間をかけてやるのか、小さいものを素早くやるのか、それは用途によって変わってくると思いますので、それぞれの目的に応じてやればいいのかなと思います。
桐原 より普遍性があるというか汎用性が高くなると、巨大化していくという考え方でいいですか。
白幡 そうですね。より性能を上げようとか、汎用性を高めようとすると、より巨大なモデルが必要になってくる。OpenAIが出しているスケール則がありまして、基本的には計算量とデータ量とモデルの大きさの3つを上げれば上げるほど性能が高まり、吐き出す言語の精度が高まるという論文があります。しかも性能向上にはまだ上限が見えていないというところがポイントです。

桐原 それはOpenAIがもう公表しなくなったといわれるパラメータの量と関係あるんですか。
白幡 図の一番右のグラフがパラメータの量を表しています。パラメータの量を増やせば増やすほど言語性能が上がるということが知られています。まだ上限が見えていないので、まだまだ性能が上がる可能性があるということですね。
桐原 AIモデルが進化していくことで、性能も上がっていくことは考えられないですか。
白幡 モデルが洗練されて性能が上がるということはあるかもしれません。いま主流なのはTransformerですが、昔は画像処理だとCNN (Convolutional Neural Network=畳み込みニューラルネットワーク)というモデルがあって、言語もRNN(Recurrent Neural Network=回帰型ニューラルネットワーク)というモデルが主流でした。Transformerに代わるより優れたニューラルネットワークが出てくれば、より計算量を落としても精度を上げることは可能性としてはあると思いますね。
国産