中国のDeepSeek(ディープシーク)は、人工知能(AI)モデルに必要なトレーニングを減らす方法について清華大学と共同で取り組んでいる。運用コストの削減が狙い。

ディープシークは今年1月、低コストの推論型AIモデルを公開し、市場を揺るがした。同社と清華大学研究者らは論文で、AIモデルの効率性を高める「強化学習(RL)」の新たなアプローチについて詳述した。RLとは人間の試行錯誤プロセスを模倣する技術だ。

それによると新たな方法では、より正確で理解しやすい回答に対し報酬を与えることで、AIモデルがより人間の好みに沿うようにすることを目指している。

RLは限定的な用途や領域ではAIタスクのスピードを高めるのに効果的なことが証明されているが、より一般的な用途への拡大は困難であることが判明している。

ディープシークは、「自己原理批判チューニング(Self-Principled Critique Tuning=SPCT)」と呼ばれる手法でこの問題を解決しようとしている。論文によると、さまざまなベンチマークスコアで既存の手法やモデルを上回り、少ないコンピューティングリソースでより優れたパフォーマンスを発揮したという。

ディープシークはこれら新モデルを「DeepSeek-GRM」(GRMは汎用(はんよう)報酬モデリング=generalist reward modelingの略)と呼び、オープンソースで公開する予定だ。中国のアリババグループや米オープンAIなども、AIモデルがリアルタイムでタスクを実行している間に推論と自己改善能力を向上させるという新たなフロンティアに挑戦している。

米メタ・プラットフォームズは週末、最新のAIモデルファミリーである「Llama(ラマ)4」を発表。「混合エキスパート(MoE)」のアーキテクチャーを初めて採用した。ディープシークのモデルは、リソースをより効率的に活用するためMoEに大きく依存している。

ディープシークは、「DeepSeek-GRM」のリリース時期を明らかにしていない。

原題:DeepSeek and Tsinghua Developing Self-Improving AI Models(抜粋)

もっと読むにはこちら bloomberg.co.jp

©2025 Bloomberg L.P.