AIがファンドマネジャーに取って代わる日まだ先－公開試験で明らか

（ブルームバーグ）：人工知能（AI）にはまだ、ファンドマネジャーに取って代わる準備はできていない。その理由は公開テストで明らかだ。

世界をリードするAIモデルがトレーディングを競い合った結果はこれまでのところ、芳しくない。大半のシステムが損失を出している。売買回数が多すぎるほか、全く同じ指示を与えているのに、下す判断が大きくばらついている。

さらに誰にも分からない点がある。より強力な次世代モデルが登場すれば、今ある欠点は解消されるのか、それとも大規模言語モデル（LLM）と現実の市場の仕組みとの間に存在する根本的なギャップが露呈するだけか、ということだ。

テック系スタートアップのNof1が運営する「アルファ・アリーナ」の例を見てみよう。ここでは、アンソロピックの「Claude（クロード）」、グーグルの「Gemini（ジェミニ）」、OpenAIの「ChatGPT（チャットGPT）」、イーロン・マスク氏の「Grok（グロック）」を含む8つの主要なAIモデルが4つの分野で競い合った。

各モデルには1回につき1万ドル（約156万円）を与え、2週間にわたって米テック株を対象に自由に運用させた。課題には、多様なシグナルに基づく取引、守りの取引、競合への反応、高レバレッジの使用などが含まれていた。

結果として、ポートフォリオ全体は資本の約3分の1を失った。全32回のテストのうち、AIモデルが利益を出して終了したのはわずか6回。最高の成績を収めたのは「Grok 4.20」だが、ライバルのパフォーマンスを認識している状態で行われた。同モデルの取引回数はわずか158回だったが、同じプロンプトの下でアリババの「Qwen」は1418回の取引を行った。

LLMが金融界で最も困難な仕事、すなわち「市場を上回る（アウトパフォーム）」結果が残せるかどうかをテストする実験は増えており、アルファ・アリーナはそのうちの一つだ。これらは学術的な厳密さには欠けるものの、ウォール街で最も収益性が高く、リスクの高い業務の一部をAIシステムが担うとしたら何が起きるかを試す上で、現時点で最も公に開示された実証の場だ。

初期の結果が重視されるのは、金融業界がAIに完全に委ねるのを慎重に避けてきた業務の一つがトレーディングだからだ。JPモルガン・チェースやバリアズニー・アセット・マネジメントを含め業界の有力企業はここ数年、それ以外のほぼあらゆる場面にAI技術を導入してきた。

LLMは現在、クオンツ運用会社でのニュース分析、ヘッジファンドでのメモ作成、大手銀行での不正検知などのタスクをこなしている。しかし、資金を実際に動かすトレーディングに関しては、「人間の介在」が依然として原則だ。それには相応の理由がありそうだ。

Nof1創業者のジェイ・アジャン氏は「LLMだけで利益を上げることはできない。そのチャンスを与えるだけでも、緻密な制御や足がかり、データプラットフォームが必要になる」と語る。

同氏によれば、LLMは調査のほか、特定のタスクに適したツールの選定・展開には優れている。しかし、アナリストによるレーティングや内部関係者による売買、センチメントの変化など、株価を左右する多くの変数のそれぞれが実際にどれほど重要であるかは、まだ理解していない。このため、取引のタイミングを誤り、ポジションのサイズを適切に設定できず、過剰な売買を繰り返す傾向がある。

AIブログの「フラット・サークル」が市場関連の11の対戦型評価環境（アリーナ）を追跡したところ、全アリーナで少なくとも一つのモデルが利益を上げていた。しかし、中央値となるモデルが利益を出していたのはわずか2アリーナにとどまり、大半が市場を上回ることに苦戦している実態が浮き彫りになった。

この結果は人間のパフォーマンス同様だ。アクティブ運用ファンドの大半が広範な市場に遅れをとっていることは周知の事実だ。また、人間同様に、AIモデルも明白なバイアスに陥りやすい。11アリーナでの結果は、同一の指示に対してAIモデルが非常に異なる決定を下すことを示し、導入する側には大きな意味を持つ。

アジャン氏によると、アルファ・アリーナの最新テストでは、クロードは主にロング（買い持ち）を好み、ジェミニはショート（空売り）を敬遠せず、Qwenはレバレッジが比較的大きいリスクテークに抵抗がなかった。

AIモデルには「個性があり、人間のアナリストと同じように管理しなければならない」と指摘するのは、インテリジェント・アルファを運営するダグ・クリントン氏だ。同社はLLM主導のファンドを運用しており、AIが企業の業績をいかに正確に予測できるかを示す独自のベンチマークを公開している。モデルにバイアスが生じていることを認識させることで、結果を改善できるという。

インテリジェント・アルファのベンチマークでは、10のAIモデルに対し、財務書類、アナリストの予測、決算説明会の文字起こし、マクロ経済データ、最大10件のウェブ検索へのアクセスを許可している。焦点を絞ると、LLMに一段とポジティブな結果につながる。

2025年の第4四半期においては、オープンAIのChatGPTが収益予想の方向性を68%の確率で的中させ、過去最高の結果を記録した。クリントン氏によると、モデルは新バージョンがリリースされるたびに向上する傾向にある。

ヘッジファンドの秘密

ただし、これらの評価は困難を極める。AIモデルを動かす頻度から取引資産の内容に至るまで、設計上の選択が大きな違いを生むからだ。また、トレーディング戦略の標準的なテストで過去のデータに当てはめてパフォーマンスを確認する「バックテスト」は、AIには通用しない。

なぜなら、AIモデルに対して2026年に、20年3月だったらどう取引したかを質問しても、同モデルはすでに当時の状況を知っているからだ。「先読みバイアス」として知られるこの一種のデータ汚染は長年、学術およびクオンツ分野の金融を悩ませてきた。そのため、LLMは現在ライブの市場で評価される必要があり、それがベンチマークやアリーナの乱立につながっている。

また、恐らく大半が損失を出しているためか、AIトレーディング・アリーナは短期間しか開催されない傾向がある。参入障壁が低いため、個人やスタートアップが他の製品の足掛かりとして立ち上げるケースが多い。

Nof1はアルファ・アリーナのシーズン2を準備中だ。そこでは、各AIモデルにウェブ検索、より長い思考時間、より多くのデータソースへのアクセス、そしてマルチステップの処理能力が与えられる。

同社の最終的目標は、個人投資家が独自の戦略に基づいたAIトレーディング・エージェントを構築できるようにするシステムの提供だが、「現時点でLLMに資金を渡して実行させるというのは、まだ現実的ではない」とアジャン氏は語る。

フラット・サークルのブログを執筆し、以前はオルタナティブデータの提供会社イピットデータを共同創業したジム・モラン氏も、公開されている実験の多くは期間が短すぎ、ノイズが多すぎるため、確定的な結論を出すには至っていないと考えている。独自の株式リサーチへのアクセスが制限されたり、執行能力が劣っていることなども、アリーナには不利な点で、「ハイエンドのヘッジファンド内部で稼働させれば、パフォーマンスは向上するはずだ」と指摘した。

ヘッジファンド会社コートゥ・マネジメントでデータサイエンスの責任者を務めた経歴を持ち、現在はNX1キャピタルに所属するアレクサンダー・イジドルチック氏は、自身が追跡しているAIトレーディング・モデルの中で、持続的な優位性を示したものはまだ一つもないと最近指摘した。学習データには含まれない、秘匿性の高いトレーディング会社内部で使用される実践的なクオンツ技術が欠けていると論じている。

その「秘密主義」こそが、AIモデルが実際に成果を上げ始めた際の行き着く先だろうという。

同氏は「初心者は時に、既存のプレーヤーには見えないものを見ることがある」とし、そうした金融のプロではない人々が流動性の高い市場で成功すれば、自ら喧伝して「Xのフォロワーを増やすよりも」黙ってAI活用で取引している方がはるかに実入りが良いと気づくはずだと説明。「LLMエージェントのトレーディング戦略が実際に機能し始めても、しばらくは表に出てこないだろう」と続けた。

原題：AI Bots Auditioning for Wall Street Trading Are Mostly Losing（抜粋）

--取材協力：Emily Nicolle.

もっと読むにはこちら bloomberg.com/jp