国産LLM開発に「富岳」で挑む ─富士通研究所・白幡晃一氏に聞く（１）| 次のブレイクスルーのヒントはここに　IT批評

国産LLM開発に「富岳」で挑む
─富士通研究所・白幡晃一氏に聞く（１）

FEATUREおすすめ

2023.10.23

聞き手桐原永叔

IT批評編集長

猛烈なスピードで普及を遂げる生成AIは、ビジネスや社会の様相をも変えようとしている。LLM（大規模言語モデル）をはじめとしたAIモデルそのものが、次代のインフラとまで目されるなか、その開発のほとんどはアメリカのテックジャイアントと、その周辺で行われている。産学官が知見を集積する国産LLM開発として期待を集める「富岳」を用いたLLM開発プロジェクトについて、中心メンバーである富士通研究所の白幡晃一氏に話を聞いた。

取材：2023年9月19日　Fujitsu Uvance Kawasaki Towerにて

白幡晃一（しらはたこういち）

富士通株式会社富士通研究所コンピューティング研究所イノベーティブコンピューティングコアプロジェクト　リサーチディレクター

脱炭素社会に向けた材料探索、構造・流体解析を用いた設計などの領域でハイパフォーマンスコンピューティングとAIを活用してイノベーションを起こすためのコンピューティング技術の研究開発をリードしている。2010年東京工業大学理学部情報科学科卒業、2012年大学院情報理工学研究科数理・計算科学専攻修士課程修了、2015年博士課程修了、博士(理学)。2015年より富士通研究所研究員、2018年よりシニアリサーチャー、2021年主任研究員、2022年プロジェクトマネージャー、2023年よりリサーチディレクター。2017年CANDAR GCAワークショップ最優秀論文賞(共著)。2020年、2021年スーパーコンピュータ「富岳」およびABCI(産業技術総合研究所が構築・運用するAIクラウド計算システム)を用いて機械学習処理性能ベンチマークMLPerf HPCで世界最高性能を達成。

並列計算の面白さに目覚めビッグデータの研究に

「富岳」による国産LLM（大規模言語モデル）開発の経緯

なぜGPUマシンではなく「富岳」が選ばれたのか

AIの精度を高める３つのファクター

並列計算の面白さに目覚めビッグデータの研究に

桐原永叔（IT批評編集長、以下桐原）　白幡さんの研究者としてのバックボーンについてなんですが、何がきっかけでコンピュータ研究の世界に入られたのでしょうか。

白幡晃一氏（以下、白幡）　特に小さい頃から確たる目標があったというわけではなくて、数学の先生か理数系の専門性を活かした職に就きたいと考えて、東京工業大学の情報科学科というところに進学しました。やっぱりこれからは情報科学の時代かなと感じていたのと、純粋に学問としても興味がありました。これからの社会に役立つことを学びたいと考えたときに、ITを学んでいくとかなり面白いことになるんじゃないかと思っていました。

桐原　東工大では何を学ばれたのですか。

白幡　松岡聡教授（現理研計算科学研究センター長）の研究室を選びました。松岡研究室は並列分散コンピューティング、特に高性能計算（HPC）に関するソフトウェア基盤技術の研究を行なっていました。当時は並列計算については、何も知らなかったのですが、スーパーコンピュータやビッグデータの研究を行っているという話を伺って、科学としても新しい発見が期待される分野だし、プラスしていろいろな社会課題の解決にも役立つだろうということで研究室に入りました。研究自体はやればやるほど面白いという感じで没頭していたのですが、将来は企業に就職したいという気持ちが強かったですね。ドクターを取得してから企業に行くのがいいのではないかと先生からアドバイスを受けて、ドクターで最先端の技術を身に付けてから就職しようと思いました。その間、世界の企業をいろいろ見ておこうと、3カ月ほどシアトルに行きMicrosoftでインターンをやったり、日本IBMでインターンをやったりしていました。

桐原　ビッグデータのことを研究しようとして、スーパーコンピュータに出会ったという順番になりますか。

白幡　というよりは、並列計算の面白さが最初にあって、そこからビッグデータの研究に行ったという順番ですね。

桐原　テック企業がいろいろあるなかで、富士通を選ばれたのはどういう理由からでしょう。

白幡　世界トップクラスのスーパーコンピュータを開発している企業ですから、大学時代に学んだ技術を活かせるかなと思いました。富士通の研究所で、世界初であるとか世界一となる技術や製品・サービスを生み出し、社会に貢献したいという気持ちがありました。

桐原　データこそ“次世代の石油”、重要資源だみたいなことが言われていましたが、当時はそういうことは意識していましたか。

白幡　それはありました。インターネットが絶対発展していくんだろうなと思っていましたし、そうなると膨大なデータが取得できることは見えていましたから。ビッグデータが生まれていくなかで、データを解析するという新しいスパコンの使い方がまさに見いだされているような時代だったので、たしかにビッグデータも重要なキーワードとして意識していました。

桐原　先ほど社会課題の解決と言われましたが、私が連想したのは、データが石油だとすればスーパーコンピュータでより精製して使いやすくしたほうが、データの社会性が高くなるというようなイメージなのかなと。

白幡　そうですね。それはかなりあると思いますね。

桐原　面白いですね。そういう意味では今回のような国産のLLM（大規模言語モデル）*1開発への取り組みは、白幡さんの指向性とも合致しているわけですね。

白幡　そうですね。まさにそこは並列計算の技術が存分に活躍できるところですし、特に「富岳」*2は国産のスパコンですから、日本ならではの研究にもなると思います。実際にやったらどんなものが出てくるんだろうという不安な面もありながら、自分としては、これは面白いなと思いながら取り組んでいます。

＊1　LLM（Large Language Models大規模言語モデル）：大量のテキストデータを使ってトレーニングされた自然言語処理のモデル。主なものにOpenAIが発表した「GPT-3」やGoogleが発表した「BERT」がある。

＊２　「富岳」：日本のスーパーコンピュータ。2014年に開発が始まり、2021年に本格稼働。神戸市ポートアイランドの理化学研究所計算科学研究センターに設置されている。主要ベンダーは富士通で富士通が開発したCPUであるA64FXを搭載している。

「富岳」による国産LLM（大規模言語モデル）開発の経緯

桐原　5月に、東京工業大学と東北大学、それに富士通や理化学研究所（以下理研）が、スーパーコンピュータ「富岳」を活用して、LLM（大規模言語モデル）を今年度中に開発すると発表しました*1。白幡さんは、富士通側の中心メンバーであるわけですが、このプロジェクトはどういうきっかけで始まったのでしょうか。

白幡　もともと当社は理研などとの共同で「DL4Fugaku*2」と呼んでいるプロジェクトに取り組んでいました。「富岳」上でディープラーニング（深層学習）のソフトウェアを整備するという取り組みを、2019年から行っていたんです。1年ぐらい前に、理研の上級テクニカルスタッフである安藤和人さんや名古屋大学准教授の西口浩司さん、コーネル大学博士課程の小島熙之さんらから、DL4Fugakuのチームに「富岳」で大規模言語モデルを学習するにはどうしたらよいかの相談を受けたのがきっかけで、東工大の横田理央教授を含めてミーティングを開いたのが発端です。その後、「富岳」上で深層学習のフレームワークを移植したり、高速化や日本語データセットの収集したりなどを行ってきました。

桐原　OpenAI社のGPT-3.5が無料公開されたのが去年の11月でしたが、その影響はあったのでしょうか。

白幡　そうですね。ChatGPTの公開をきっかけに、日本でも去年の冬ぐらいにかけて大規模言語モデルがかなり注目されるようになってきまして、これは本格的に取り組んだほうがいいだろうということで、文科省の政策対応枠への申請が通って、来年の3月31日までが「富岳」の利用期間になっています。

桐原　もともと白幡さんの関わりとしてはどの時点からになるのですか。

白幡　機械学習のベンチマークで「MLPerf*3」というものがあります。2年前にMLPerf HPCにおいて「富岳」で世界一の性能を達成したという実績もあって、国産LLMの開発に富士通にも入ってほしいとご相談いただきました。われわれとしてもこれは重要な取り組みだろうと考えて、冬から春にかけて本格的に動きはじめて、今はもう全力でやっているというような状況です。

桐原　LLMの研究はそれ以前からなさっていたのですか。

白幡　研究者の間では、ChatGPTが出る前からTransformer*4が画像だけではなく言語にも使えるということは、みんな認識していました。そこにChatGPTが出てきたことで、本気で取り組む機運が盛りあがってきた感じです。ただし、ChatGPTがここまでブレイクするとは予想がついていなかったところがあります。

桐原　私もChatGPTが、こんなに世の中を巻き込むほどのことになって驚いています。世の中の見え方がガラッと変わりましたね。

白幡　そうですね。本当に社会を変えていくようなことになってくると、なおさら、日本としても本気で取り組まなくてはなりません。特に「富岳」でやることに意味があるというか、ユニークなところだと思っています。

桐原　それは大規模言語モデルの開発が、社会にとって重要な意味を持つということですね。

白幡　はい。ChatGPTに代表される大規模深層学習モデルのことを基盤モデルと呼んでいます。インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術ですね。これからの社会において、研究開発、経済社会、安全保障などのあらゆる側面から期待されているのですが、一方で基盤モデルの性能を高めるためには大量のデータを効率的に処理する高性能計算資源が不可欠であり、そのための「富岳」プロジェクトなんです。

＊1　LLM（大規模言語モデル）を今年度中に開発：2023年5月22日、東京工業大学や富士通などはスーパーコンピュータ「富岳」を使って2023年度中に高度な生成人工知能（AI）を開発すると発表した。日本語を中心とした基盤技術を構築し、24年度から国内企業などに提供する。

＊2　DL4Fugaku:「富岳」および「富岳」に搭載されるプロセッサA64FXにおいて、理研と富士通が協力してAIのためのソフトウェア基盤の研究開発を進めるプロジェクト。DLはDeep Learning（深層学習）のこと。

＊3　MLPerf：「公平かつ有用なベンチマーク作成」を目的とした学界、研究機関、業界のAI リーダーたちによるコンソーシアム。ハードウェア、ソフトウェア、サービスの学習と推論のパフォーマンスを公正に評価するとしている。

＊4　Transformer：2017年に発表された”Attention Is All You Need”という自然言語処理に関する論文の中で初めて登場した深層学習モデル。ChatGPTのTはTransformerを指す。

なぜGPUマシンではなく「富岳」が選ばれたのか

桐原　ChatGPTが世界を席巻して、同時にGPU（Graphics Processing Unit）*1を提供するNVIDIAの株価が上がったり、ARMが上場したりみたいなことが起きているなかで言うと、計算資源としてはGPUが本命なのではないかと短絡的に考えてしまうのですが、なぜ「富岳」なのでしょうか。

白幡　「富岳」は文科省のプロジェクトで、汎用CPUを使って日本の科学技術を発展させていく役目を背負っています。AIに全振りしているマシンではありません。一方でGPUは、もともとはグラフィック用のですけども、最近はかなりAIに振って、特にTransformerで性能を引き出せるようにどんどん進化していることは間違いありません。ではなぜ「富岳」なのかと言うと、国内で現時点でのGPUシステムとして一番大きいものは、産総研のABCI*2なのですが、実は理論性能としては「富岳」のほうが高いというところがあります。端的に言うと規模が大きいということですが、性能としてもけっして悪くない。

桐原　ABCIも富士通が受注したわけですが、そこは使わないんですね。

白幡　現実的な問題として、GPUはクラウドでもオンプレでも不足しているというところもあって、ABCIを誰かが自由にフルに使えるということは基本的にはあり得ない。1日だけ使えるというような仕組みがあるのですが、LLMはかなり巨大な計算が必要になりますから、ABCIでは足りないということなんです。一方で「富岳」は理論性能としては上なので、これをしっかり活用することができれば、ABCI以上の性能を出すことも可能です。

桐原　「富岳」が理論性能として上というのは、どういうことなのでしょうか。

白幡　深層学習にはGPUが向いているとされていますが、機械学習において創発性が観測されると言われる10²³FLOPs*3という演算量は国内最大級のGPUスパコンであるABCIのグランドチャレンジ制度のV-Largeクラスを利用したとしても達成できないのですが、「富岳」だと理論ピーク性能の半分の実効性能が出せれば、AIに創発性が観測される規模での事前学習が短期間で実現可能なのです。GPUかCPUかではなくて、計算の規模や混み具合も含めて実際に考えてみると、「富岳」を使わないのはかなりもったいないということですね。

桐原　コンピューティングの性能を測る基準は速度ですか、それとも量になるんですか。

さっき言った10²³ FLOPsというのがそれにあたります。これはLLM自体が10の23乗回の計算をする必要があるアプリケーションだということ。GPT-3がそのぐらいの規模なんです。

＊1　GPU（Graphics Processing Unit）：リアルタイム画像処理に特化した演算装置あるいはプロセッサ。設計が複雑で並列化の難しいCPUと比較して、GPUは、内部でコアが連携して動作することで並列処理が行えるため、CPUに比べて圧倒的な処理スピードを誇る。HPC分野では、CPUよりも並列演算性能にすぐれたGPUのハードウェアを、より一般的な計算に活用する「GPGPU」がさかんに行われるようになっており、深層学習ベースのAI向けに特化した演算器を搭載した製品も現れている。

＊2　ABCI（AI Bridging Cloud Infrastructure＝AI橋渡しクラウド）：東京大学柏キャンパスにあるスーパーコンピュータ。人工知能・機械学習・深層学習での使用を目的としており、産業技術総合研究所が運用している。「富岳」が2020年4月に試行運用を開始するまでは、日本最高の計算性能をもっていた。GPUを多数用いた行列計算を行うことで、低精度浮動小数点数・ビッグデータ・人工知能アプリケーションに焦点を当てた設計がされている。

＊3　FLOPs（フロップス）：FLOPsは2種類の意味があり、１つはコンピュータの処理能力（1秒あたりの演算回数）、もう１つはアプリケーションの演算量（演算回数）である。この文脈でのFLOPsはアプリケーションの（創発性に必要な）演算量を指している。

AIの精度を高める３つのファクター

桐原　先ほど「創発性」という言葉が出ましたが、これは演算量が決め手になるのですね。

白幡　はい。基盤モデルで10²³ FLOPsの演算量の学習を行うと創発性が観測されます。創発性とは、AIがそれまで全くできなかったことが教えてもいないのに突然できるようになるようなことで、データ量と計算量だけ増やせば、この先もさまざまな能力を自然に獲得すると考えられています。GPTだけでなく他のモデルにおいても同様の規模で創発性かが観測されています。10²³ FLOPsを超えていくとAIの精度が大きく改善されるのですね。

桐原　この演算量を演算速度で割ると学習に要する時間が出てくるのですね。

白幡　そうです。今回の研究では、高速化も重要なポイントになっていまして、従来のLLMの学習時間が150日かかるところを30日にまで短縮しようとしています。

桐原　スピードが速いということは、進化が速いということですね。

白幡　そうですね。学習時間に5カ月費やしていると、その間に次のGPTが出てくるかもしれない。高速化すると30日ぐらいでできるようになると見込んでいて、1カ月で回せるなら今年度中に何回か回せる可能性が出てきます。

桐原　スピードと計算量はトレードオフの関係と考えてよいのでしょうか。やはり量が多いほど時間がかかるということですか。

白幡　そうですね。計算量が大きいほどより時間がかかる。そこもいろいろ議論がありますよね。巨大なものをとにかく時間をかけてやるのか、小さいものを素早くやるのか、それは用途によって変わってくると思いますので、それぞれの目的に応じてやればいいのかなと思います。

桐原　より普遍性があるというか汎用性が高くなると、巨大化していくという考え方でいいですか。

白幡　そうですね。より性能を上げようとか、汎用性を高めようとすると、より巨大なモデルが必要になってくる。OpenAIが出しているスケール則がありまして、基本的には計算量とデータ量とモデルの大きさの３つを上げれば上げるほど性能が高まり、吐き出す言語の精度が高まるという論文があります。しかも性能向上にはまだ上限が見えていないというところがポイントです。

桐原　それはOpenAIがもう公表しなくなったといわれるパラメータの量と関係あるんですか。

白幡　図の一番右のグラフがパラメータの量を表しています。パラメータの量を増やせば増やすほど言語性能が上がるということが知られています。まだ上限が見えていないので、まだまだ性能が上がる可能性があるということですね。

桐原　AIモデルが進化していくことで、性能も上がっていくことは考えられないですか。

白幡　モデルが洗練されて性能が上がるということはあるかもしれません。いま主流なのはTransformerですが、昔は画像処理だとCNN （Convolutional Neural Network＝畳み込みニューラルネットワーク）というモデルがあって、言語もRNN（Recurrent Neural Network＝回帰型ニューラルネットワーク）というモデルが主流でした。Transformerに代わるより優れたニューラルネットワークが出てくれば、より計算量を落としても精度を上げることは可能性としてはあると思いますね。

→（２）に続く