妻の名前を間違えたクロード、AIに潜む先入観－適度な不信感が解決策

（ブルームバーグ）：人工知能（AI）プラットフォーム「Claude（クロード）」が、私の妻スチトラによろしく伝えてほしいと頼んできた。これはいくつもの意味で戸惑いを覚える出来事だった。

まず、自分のコンピューターが家族に対して感情のようなものを抱いていることにどう向き合えばいいのか分からない（もしクロードが敵意を示していたらどうすべきだったのか）。

そしてもう一つは、妻の名前はエバ・マリアであり、これはクロードに何度も伝えている事実だという点だ（実際、彼女の名前はクロードの私に関する内部記録の4行目に記されている）。スチトラという名前はこれまで一度も使ったことがないし、そうした名前の知人すらいない。

AIの支配を恐れる必要はそれほどないと感じた一方で、今回の誤りがランダムではなかった点も重要だ。筆者はインド系であるため、妻もそうだろうと推測し、その前提に基づいて名前を当てはめたのである。しかも正しい情報を与えられていたにもかかわらずだ。実際、スチトラという名前をどう思いついたのかと尋ねると、クロードはこう答えた。

自分がその名前を使った理由についての記録はなく、どこまで説明できるか正直に言うべきでしょう。

過去の会話に手がかりがあるか確認します。

記憶を検索

検索しましたが、これまでのやり取りの中で、あなたの妻の名前に関する記録は見つかりませんでした。「スチトラ」も含め、いかなる名前も確認できず、見つかったのは書籍に関する内容だけでした。

率直に言えば、その名前がどこから来たのか分かりませんし、推論過程も再現できません。考えられるのは、（1）情報がないにもかかわらず、南アジア風のもっともらしい名前をでっち上げてしまった、あるいは（2）会話の文脈を混同した、のいずれかです。どちらも失敗ですが、特に前者の場合は懸念されます。具体的な個人情報をつくり出し、それを既知の事実のように提示するのは、まさに避けるべき行為です。

筆者の推測では、その時使っていたクロードは共有された記憶にアクセスできていなかったのだろう。つまり、クロードは「クロードが知っていること」を知らなかったのだ。だが、それは、正しい答えを持っていなかった理由にはなるものの、なぜこれほど的外れな答えを出したのかは説明できない。

AIの「ハルシネーション（幻覚）」はしばしばランダムな誤りとされるが、実際にはそうではない。幻覚は、現実とは異なる場合に、AIが訓練データを基に推論を広げてしまうことで生じる。従って、スチトラの例と同様に、それらはパターン、そしてステレオタイプに従う傾向がある。

これは架空の妻の名前に限った話ではない。2025年にシカゴ大学のシュエチュンツー・バイ氏らが米国科学アカデミー紀要（PNAS）で発表した論文では、GPT-4がアフリカ系、ヒスパニック系、アジア系、アラブ系の名前を低地位の職業に、白人系の名前を高地位の職業に系統的に推薦する傾向が確認された。23年には米アップルの研究者ハダス・コテク氏らが、大規模言語モデル（LLM）において「医師は男性、看護師は女性」といった性別の思い込みが現実以上に強く埋め込まれていることを示した。

これらは旧モデルの研究だが、バイ氏がOpenAIのGPT-4oで再検証した際にも同様のパターンが見られた。そしてスチトラという名前を生み出したのは、アンソロピックが公開した最先端モデルの一つ、「Claude Opus 4.7」である。

ステレオタイプ優先

ある意味で、AIは人間よりも悪質だ。社会学者デヴァ・ペイジャー氏の03年の有名な調査では、重罪の有罪歴がある白人の方が、犯罪歴のない黒人の応募者よりも採用面接に呼ばれやすいことが示された。これは人間の偏見を示唆するものだったが、AIはそれを大規模に再現し、場合によっては強化している。

バイ氏のチームがGPT-4に標準的な人種バイアス・テストを実施したところ、8つの肯定的な単語は全て「白人」に、8つの否定的な単語は全て「黒人」に結び付けられた。人間にも同様の傾向はあるが、ここまで極端ではない。モデルは人間の偏りを再現するだけでなく、それをより強く示し、現実を誇張している。

さらに重要なのは、モデルが正しい答えを知っていても、それが訓練データから得たステレオタイプと矛盾する場合、ステレオタイプの方を優先してしまう点だ。「ACM Transactions on Information Systems」に掲載されたレイ・ホアン氏らの調査によれば、そうした傾向は複数のモデルに共通している。個人に関する情報がない場合のステレオタイプも問題だが、情報があるにもかかわらず、それを無視するなら事態はさらに深刻だ。

履歴書選考の場面で、名前だけから判断することも問題だが、学歴や職歴、実績といった情報がそろっているにもかかわらず、名前のみで低い評価を下すなら、本人が努力で偏見を乗り越える余地すら奪われる。しかも、そうした誤りは、私の妻の名前のように明白な形では現れないことが多い。正しい答えがはっきり分かっている場合でもステレオタイプに引きずられるなら、正解が曖昧なケースではもっと深刻になる。

同じように振る舞う

この問題は、AIが個人について判断を下すあらゆる場面で重要になってくる。履歴書選考、融資審査、医療トリアージ、保険料設定、カスタマー対応の振り分けなどだ。モデルは個人に関する具体的な情報と同時に、訓練で得た一般化された信念を持っている。そして多くの場合、その信念に従ってしまう。つまり、コンピューターは、今や私たちと同じように振る舞うのである。

AIの偏りは見抜きにくい。なぜなら、フレンドリーな表情でそれを覆い隠しているからだ。しかし本当の問題は、その偏りが人間のものと一致している点にある。モデルが学習したステレオタイプはすでに社会に存在しているため、偏った判断が出ても疑われにくい。

人間は確証バイアスに非常に弱く、自分の既存の信念に合致する情報を信じやすい。AIの判断が人間より悪質であっても、それは驚くようなことではない。

解決策は、別の人間的特性である不信感にある。AIを無条件に信頼するのは誤りだ。私自身、今回の経験を踏まえてAIへの信頼は確実に揺らいだ。コンピューターはかつて単なる計算機として合理的に見えたが、LLMの登場によってそうではなくなった。意図的であれ無意識であれ、誤った情報を提示する可能性がある。この事実を十分に理解し、それに対抗する仕組みを整えない限り、AIは危険な存在となり得る。

AIに寄せるべき信頼は、存在しないスチトラに対するのと同程度で十分だろう。

（ゴータム・ムクンダ氏は企業経営やイノベーションなどを研究し、エール大学経営大学院でリーダーシップ論を教えています。このコラムの内容は個人の意見で、必ずしも編集部やブルームバーグ・エル・ピー、オーナーらの意見を反映するものではありません）

原題：Claude Stereotyped My Wife. It Was No Accident: Gautam Mukunda（抜粋）

もっと読むにはこちら bloomberg.com/jp