大阪大学社会技術共創研究センター長・岸本充生氏に聞く
(1)経済学者が取り組むテクノロジーのリスクアセスメント
インターネットから画像をスクレイピングして学習に使うことの是非
桐原 生成AIに関連して、イラストレーターがオプトアウトや著作権について主張していますね。
岸本 実は似たような話はすでに顔認識技術でも出ていました。顔認証のアルゴリズムを作るためのトレーニングデータは、基本的にインターネットからスクレイピングしています。僕の画像が使われているかどうかは微妙ですけど、俳優や有名人、政治家、大学の先生など、同じ人の画像が複数あるというのが分かっているとトレーニングデータにぴったりなので、そういうものを集めたデータセットがたくさん作られたんです。それらのデータセットを用いてトレーニングされたものが顔認証のアルゴリズムです。そのアルゴリズムで利益を得ている会社がいたとして、トレーニングに僕の画像が使われていたら、先ほどのイラストレーターと近い立場になります。イラストレーターと違って、写真を載せているだけで別になんの努力もしてないので、そこまで主張しなくてもいいかなとは思いますが、深刻なケースもあります。特定の民族を抑圧するためだとか、住民を監視するためのアルゴリズムのトレーニングデータに自分の写真が使われていたという人が抗議しています。
桐原 自分の画像が使われたどうかわかるものですか。
岸本 どのデータセットを使っているかというのは調べたら分かります。ただし、アルゴリズムになってしまうと個人情報でなくなるので、売買するのも、譲渡するのも自由なんですよね。
桐原 ただの統計データですからね。
岸本 例えば、使われた人が人権の活動家だったなら、自分の顔写真で訓練されたアルゴリズムが人権抑圧に使われるというのはすごい気持ち悪いことだと思います。このように、インターネットから勝手に、パブリック・アベイラブル(公開情報)だから問題ないとしてスクレイピングして、データセットをつくることはいいのか悪いのかというのは以前から問題になっていました。今回、生成AIがブームになったことで、同じ問題が再燃していますが、これはある程度、予想できたことです。
桐原 「IT批評」では以前からヨーロッパやアメリカの状況と比較しながら個人情報の扱いについて検証してきたのですが、こちらが思うほど世間は関心がないように感じます。もしかすると、自分のデータを提供することに関して抵抗感の低くなる文化みたいなものがあるんでしょうか。
岸本 あるかもしれないですね。日本ではこれまであまり議論されてこなくて、今回、イラストレーター業界からそういう話が出てきたのは初めてですよね。
桐原 AIに学習データが必要である限り、その問題は常につきまといますよね。