米アンソロピックと国防総省の対立が意味すること～進歩するAIの潜在的危険性に高まる危機感～【調査情報デジタル】

超知能と人類存亡のリスク

上述したFLIによる自律型兵器の開発禁止を呼びかける公開書簡には、スチュアート・ラッセル、エリック・ホーヴィッツ、デミス・ハサビス、ジェフリー・ヒントン、ヤン・ルカンといった錚々たるAI研究者のほか、イーロン・マスク、ジャン・タリン、スティーブ・ウォズニアック、ジャック・ドーシーなど巨大テック企業の経営者、さらにはマックス・テグマーク、ノーム・チョムスキー、ダニエル・C・デネット、スティーヴン・ホーキングといった多様な分野の著名な学者が名を連ねていた。

彼らの一部は、いずれAIが賢くなりすぎ、人間によって制御できなくなる可能性を予見し、そしてこのようなAIは人類存亡に関わるほどのリスク（existential risk）となり得るとして、警鐘を鳴らしてきた。

彼らがLAWSに反対するのは、人間の制御を振り切った超知能が、人間を殺傷する物理的能力を手にするという最悪のシナリオを想定しているからでもある。そしてこれはアンソロピックのCEO、ダリオ・アモデイが強調してきた懸念とも重なっている。

アンソロピックの安全性志向の姿勢

アンソロピックは2021年に、OpenAIのメンバーだったダリオ・アモデイらによって設立された。アンソロピックとOpenAIはどちらもLLM（大規模言語モデル）をベースにした強力なAIモデルの開発を進めている企業であるが、両者には企業としての姿勢に明確な違いがある。

それは、アンソロピックがAIの性能を向上させることと並んで、安全性の確保を非常に重視しているという点である。アモデイらがOpenAIから袂を分かった背景には、こうした安全性への強い志向がある。

そのようなアンソロピックの姿勢を象徴するものとして「憲法的AI（Constitutional AI）」がある。これは、AIモデルの振る舞いを人間の価値や倫理と整合させる、すなわち「AIアラインメント」を実現するための手法である。

従来は、AIの出力に対して人間が善し悪しを判定し、そのフィードバックをもとに学習させる方法（Reinforcement Learning from Human Feedback, RLHF）が主流だった。これに対して憲法的AIでは、世界人権宣言のような普遍的で一般的な価値や倫理を明示的に与え、その原則に照らしてAI自身が自らの出力を評価・修正する。そして、その自己評価の結果を用いて強化学習を行うこと（Reinforcement Learning from AI Feedback, RLAIF）で、AIの振る舞いを人間社会の価値観と整合させていくのである。

この手法の大きなメリットは、人間の手作業に頼る場合と比べて、はるかに大量のフィードバックを継続的に与えられる点にある。加えて、人間であれば個人の主観や時々の気分や体調などに起因する判断のばらつきがあるが、AIならばそのようなばらつきが少なく、より一貫した評価基準を保つことができる。