2) オフラインテスト
第二の指標である「オフラインテスト」は、この学習データ混入問題を回避すべく設計された、より厳格な評価軸である。AIの学習データに含まれていない未知の問題を用いることで、AIの汎化能力、すなわち未知の状況に対する応用力・推論能力の測定を試みている。図2は、このオフラインテストにおけるAIモデルのスコア分布を示している。
図2を見ると、Mensa Norwayテスト(図1)と同様に、人間の平均IQ=100を超えるスコアを示すAIモデルが多数存在することが確認できる。Gemini2.5 Pro Exp.やOpenAI o3などが高いパフォーマンスを示している。しかし、図1と比較すると、各モデルのスコアや相対的な位置づけに変化が見られる。例えば、Mensa Norwayテストで特に高いスコアを示したモデルが、オフラインテストではややスコアを落とす、あるいは他のモデルとの差が縮まるケースがある。これは、学習データへの依存度が低い状況下での、より純粋な推論能力を反映している可能性がある。
このオフラインテストの結果は、AIの「真の知的能力」や汎化能力を評価する上で、Mensa Norwayテストの結果と合わせて多角的に分析することが不可欠であることを示唆している。ただし、このテストで高いスコアを示したとしても、それが直ちに人間のような柔軟な思考力、創造性、常識的判断力までをも保証するわけではない点には、引き続き留意が必要である。
IQ偏重教育を再生産する構造的課題
trackingai.orgが示すように、AIが特定のIQテスト、特にパターン認識や論理的推論において高いスコアを叩き出しているにも関わらず、多くの教育現場、特に進学を重視する環境においては、依然としてIQ的な能力の育成に多大な時間と労力が費やされている。その背景には、入学試験という強力なインセンティブ構造が存在する。
大学入試をはじめとする多くの選抜試験では、限られた時間内に大量の知識を正確に想起し、問題を効率的に処理する能力、すなわち情報処理速度や記憶力、論理的思考力が合否を左右する。これらの能力は、まさにMensa Norwayテストなどで測定される因子と高い親和性を持つ。結果として、学校教育や塾・予備校などでは、試験で高得点を得るためのテクニックや知識の暗記、パターン化された問題の反復演習が重視されがちになる。
これは、教育者や学習者にとって、受験という短期的な目標を達成するための合理的な戦略ともいえる。しかし、この「受験最適化」された教育は、図らずもAIが得意とする能力の育成に偏重する結果を招いているのではないだろうか。
AIが得意とする情報処理やパターン認識の訓練に時間を費やす一方で、AIにはない人間独自の能力、例えば複雑な状況で倫理的な判断を下す力、他者と深く共感し協力する力、既存の枠を超えて新しい価値を創造する力などを育む機会が相対的に失われている可能性がある。教育現場は、社会が求める長期的な人材育成の理想と、受験制度という短期的な現実との間で板挟みとなり、結果的にIQ偏重の教育から脱却できない構造に陥っている側面は否定できない。