【連載1回目】新たなSNSの構想
彼らはそれを友情と言う。私たちはそれを無報酬の仕事と言う。「いいね!」、チャット、タグ付け、Pokeをするごとに、私たちの主観は彼らに利益をもたらす。彼らはそれを共有と呼ぶ。私たちはそれを窃盗と呼ぶ。私たちはあまりにも長い間、彼らの利用規約に縛られてきた。もうそろそろ、私たちの条件が守られるべきだ(注1)。(「wagesforfacebook」マニフェストより)
2024年6月、人工知能(AI)を学習させるための大規模なデータセットの中に、ブラジルの子どもたちの画像170枚以上と詳細な個人情報が本人(または保護者)の同意なしに使用されていたことが人権団体ヒューマン・ライツ・ウォッチの調査で明らかになった。
データセットとは、分析や処理のために整理されたデータの集合体だが、問題となったのはオープンソースの「LAION‐5B」というデータセットで、ドイツの非営利団体が作成したものだ。1990年代から現在までの期間にわたる子どもたちの画像や個人情報――例えば2歳の女の子の名前や住まい、生まれた病院名などが記載され、個人の特定が容易にできる状態だった。母親の出産・育児ブログ、YouTube動画からキャプチャされた静止画もあった。このデータセットに含まれる画像とテキストは58億5000万点もあったが、ヒューマン・ライツ・ウォッチが調査できたのはそのわずか0.0001%未満のデータだった。つまり170枚とは氷山の一角に過ぎない。スタンフォード大学インターネット観測所(SIO)による別の調査では、「LAION‐5B」には子どもの性的虐待画像や児童ポルノも含まれていたとの結果も出ている。このことは世界中で報じられ、「LAION‐5B」は該当する画像の削除やフィルター機能の改善を約束したが、そのときすでに58億もの画像やテキストは多くのAIが「食べて」しまっていた。
2023年4月には、Metaの大規模言語モデル「LLaMA」のAI学習用に使われていたGoogle作成の巨大データセット「C4」に、有害なコンテンツが大量に紛れ込んでいることも判明した。データセットには主要メディアの記事の他、白人至上主義や反トランスジェンダーのサイト、海賊版電子書籍サイトなどからのデータも含まれていた。
差別と偏見を強化するモデルの中で
こうした事象は驚くべきことではない。日々、私たちの見えないところで様々なデータがスクレイピング(ウェブサイトから情報を自動的に収集する技術)され、データセットとして加工され、AIの学習データなどに使用されている。そのことは、著作権違反やプライバシー侵害、子どもたちへの危害など多くの問題を孕んでいるが、どの国もこうしたデータ収集についての法規制は不十分だ。そんな中、「データセット市場」は活況を呈している。
データセットは公共的なデータ(天気予報や災害情報、人口統計など)や、ウェブサイト上から抽出した画像やテキストなどから作成されるが、例えば「世界各国の人の顔画像」「ファッション関係の10万点以上の画像」「タグ付けされた800万本ものYouTube動画」「人間の声や動物の鳴き声、楽器の音などラベル付きの音声データ」などあらゆるテーマで作成が可能だ。無料のオープンデータセットを活用する、自社で集める、あるいは収集を外注したりデータセットを購入したりするなど入手方法はさまざまで、販売企業はクライアントを惹きつけるために多種多様なデータセットを揃える。一方、現在のAIはインターネット上のデータを驚くべきスピードで学習しつづけており、このままいけば2028年までにネット上にあるすべてのデータを学習し尽くしてしまうとの分析もある。開発企業はデータ枯渇を回避するため、大規模で汎用的なLLM(大規模言語モデル)から小規模で専門性の高いモデルへの移行を余儀なくされる可能性が高いとされるが、その間にもAI開発競争の中でデータのスクレイピングはすさまじい勢いで進んでいる。
「データを収集し、データ製品を作成すること」がここまで広がった現在、私たちは立ち止まって考える必要がある。誰がどんな目的でどのようにデータを収集しているのか、またそこにはどのような問題があるのだろうか。