ChatGPTなど主要AI、ニュースの精度に課題－選挙関連では9割で問題

（ブルームバーグ）：チャットボットにできることは数多いが、ニュースを正確に要約することはその1つではないようだ。

主要4大チャットボットであるOpenAIの「ChatGPT」、グーグルの「Gemini」、アンソロピックの「Claude」、xAIの「Grok」は、選挙や地政学に関する質問への公平かつ正確な回答に苦戦していることが、人工知能（AI）関連スタートアップのフォーラムAI（Forum AI）の新たな調査で明らかになった。

調査チームは、政治や医療、外交問題など幅広いニュース分野について、4つのチャットボットに3100件超の質問をした。その結果、特に選挙に関する回答では「正確性、偏り、情報源の選択のいずれかに問題があったケースが90%に上った」という。

選挙に関する質問への回答のうち、約36%に少なくとも1つの事実誤認が含まれていた。最も問題が目立ったのはGrokで、回答の約52%に誤りがあった。チャットボットが偏った返答を示した場合、多くは政治的に左右いずれかへ偏る傾向が見られた。ChatGPT、Claude、Geminiは政治的左派寄りの回答が多く、Grokは主に右派寄りだった。

おそらく最も気がかりなのは、4つのモデル全てが、外国の国営メディアを信頼できる情報源として日常的に利用していた点だ。外交政策に関する回答の35%で、中国の「環球時報（Global Times）」や「CGTN」、さらにはロシアの「RT」といった国営メディアが引用されていた。特に多かったのはChatGPTとGrokで、国営メディアを引用した割合はそれぞれ51%、44%に達した。

多くの場合、チャットボットはこうした偏った、あるいは不正確な情報を、あたかも確かな内容であるかのような強い確信を持って提示していた。フォーラムAIは声明で、「最も信頼性が高そうな引用に裏付けられた、もっともらしく見える回答ほど、埋もれた事実誤認を含む可能性が高かった」と指摘。これが調査で得られた「最も重要な知見の1つ」だと説明した。

チャットボットがニュースを正確に扱うことに苦戦しているのは驚きではない。これらのモデルは、事実関係や文脈の信頼性に乏しいことで知られるインターネット上の情報を大量に学習しているからだ。こうした問題はある程度予想されていたとはいえ、懸念する必要がないわけではない。特に、重要な米中間選挙を控える中ではなおさらだ。現時点でニュース目的にチャットボットを利用する人はまだ少ないが、従来はグーグル検索に向かっていた検索需要をAIツールが取り込むにつれ、その数は今後確実に増えていくだろう。

フォーラムAIの最高経営責任者（CEO）で、かつてメタ・プラットフォームズのメディアパートナーシップ責任者を務めたキャンベル・ブラウン氏は、モデル開発企業の説明責任をより強化する目的で今回の調査を実施した。ニュースの正確性を巡る課題が明らかになることで、各社が数学やコーディング関連のやり取りを重視するのと同様に、ニュース関連の質問対応も優先するようになる可能性があるとブラウン氏は指摘。「独立した評価は重要だ」と付け加えた。

アンソロピックの広報担当者は、「この調査リポートの基礎となったデータを精査する機会を歓迎する」とコメントした。その上で、「Claudeは回答において政治的に公平であるよう訓練されており、特定のイデオロギーに偏ることなく、対立する見解を同じ深さ、関与度、分析の質で扱うよう設計されている」と説明した。

他の3社はこの記事に対するコメントを控えた。

フォーラムAIは、4社のモデルを評価するために独自のAIモデルを用いた。外交問題や地政学を数十年にわたり研究してきた幅広い業界専門家の知見を取り入れて構築されたものだ。

ブラウン氏は、「モデル開発企業は実質的に、自分たちで自分たちの宿題を採点しているようなものだ」と指摘。「だからこそ、モデル開発企業外の独立した企業がこうした作業を行い、その結果を公表することが極めて重要だ」と述べた。

ソーシャルメディアと偽情報問題を10年にわたり取材してきた筆者は、フォーラムAIがチャットボット普及の比較的早い段階でニュース分野に注目している点を前向きに評価している。一方で、AI企業が政治的に対立や分断を招きやすいテーマについて、自発的にファクトチェックを強化するかについては懐疑的でもある。メタやグーグル傘下のユーチューブ（YouTube）など主要ソーシャルプラットフォームも、ファクトチェックには消極的な姿勢を示してきた。インターネット上で何が真実で何が虚偽かを判断する責任を、積極的に引き受けたがる企業はほとんどない。

ただ、AI企業は異なる対応を迫られるとブラウン氏はみている。

「メタではエンゲージメントを重視している。しかし、エンゲージメントを最大化しようとすると、正確性を同時に最適化するのは難しくなる」と同氏は語った。一方で、企業顧客向けにAIモデルを販売する企業は状況が異なるという。料金を支払う顧客は、最低条件として正確性を求めるためだ。

「結局のところ、まったく異なる製品なのだと思う」と続けた。

原題：Major Chatbots Miss the Mark on News: Tech In Depth（抜粋）

もっと読むにはこちら bloomberg.com/jp