7月4日、The Decoderが「A 26,000-student study shows AI's hidden learning cost takes two full years to surface」と題した記事を公開した。AI利用が学生の学力に与える負の影響が表面化するまでに最長2年を要するという大規模研究の知見を詳しく紹介している。
2.6万人規模の追跡調査が示した「遅延するコスト」
宿題のスコアは上がる。しかし試験の点数は下がる。そしてその全体像が見えてくるのは、AIを使い始めてから2年後だ。
SSRNで公開された研究は、中国の中高生2万6000人を対象に、AIツール利用の前後で学力がどう変化したかを追跡した。利用状況の自己申告データによれば、AI利用率は調査期間中にほぼゼロから**約80%**まで上昇した。大きな跳ね上がりのタイミングは2024年9月のDeepSeek V2.5リリースと2025年1月のDeepSeek R1リリースに一致しており、主な利用ツールはDoubao、DeepSeek、ChatGLM、Ernie Bot、Qwenだった。
研究手法は差分の差分法(Difference-in-Differences)を採用している。AIを使い始めた学生とそうでない学生を比較し、介入前後の変化の差を取ることで因果的な効果を推定する計量経済学の標準的な手法だ。
宿題+18%、試験−20%という「見かけの改善」

宿題スコアは18%上昇し、完了時間は64分から45分に短縮。一方、クローズドブック試験のスコアは20%低下。| 画像: Strömberg et al.
AI使用開始から6か月後、宿題のスコアは18%上昇し、1課題あたりの平均所要時間は64分から45分に短縮された。しかし同時期に、毎月実施されるクローズドブック形式の定期試験のスコアは20%低下した。
さらに問題なのは、高校・中学入試相当の重要試験(中国の「中考」「高考」に相当)への影響だ。定期試験のスコアは半年以内に落ち込みが現れるのに対し、入試スコアへの影響が最大値に達するまでには約2年かかった。その低下幅は**18〜24%**に達する。

定期試験への悪影響は6か月以内に顕在化するが、入試スコアの低下が最大限に達するには約2年かかる。| 画像: Strömberg et al.
研究チームはここに短期研究の盲点を指摘する。数週間〜数か月の実験では、この長期的なコストを捉えられない。
5か月超の利用者の81%が「アウトソーシング」パターン
AI利用開始から5か月以上が経過した学生の約**81%**は、宿題を50分未満で終えるようになった。これはAI非利用者の最速層よりも速い。宿題の成績は高いが、試験では低得点という組み合わせは、学習ではなく作業のアウトソーシングが起きていることを示唆すると研究者は書いている。

宿題を異常に速く終える学生に学習損失が集中している。| 画像: Strömberg et al.
一方、AI非利用者と同程度の時間をかけて宿題に取り組んだAI利用者は、試験でも同等のスコアを維持しつつ宿題の成績も良好だった。つまり、AIそのものが有害なのではなく、独立した思考を代替させたときに損失が生じるという構図だ。
被害が最大なのは「上位層」と「社会科学」
教科別では、社会科学(政治・地理等)が平均27%低下と最大の被害を受けた。続いてSTEM系が22%、英語17%、国語9%の順だ。これまでの実験研究が数学・プログラミング・外国語に偏っていたことを踏まえると、新たな知見と言える。
成績層別の影響も顕著だ。上位3分の1の優秀層が−24%と最も大きな打撃を受けており、下位3分の1の−16%を大きく上回る。また、AI利用時間との用量反応関係も確認されており、週1時間未満の利用者は約5%の低下にとどまる一方、週5時間以上の利用者は30%低下した。
なぜ誰も気づかなかったのか
研究はこの問題が長らく見過ごされてきた理由を分析している。教師は1教科しか担当しないため、20%の成績低下は個人の変動として埋もれやすい。郡単位の平均への影響が−10%に達したのは2025年6月になってからで、それまでは利用期間が短すぎて損失が蓄積していなかった。学生自身も、独力で考える精神的な負荷を「うまく学べていないサイン」と誤解しがちだ。
対策として研究は、アウトソーシングの長期コストに関する情報提供、対面試験の比重増加、宿題の点数ではなく完了時間の追跡を提案している。AI利用者の間では、宿題の高スコアが試験の低スコアを予測するという逆転現象が生じており、宿題は学力の指標として機能しなくなっている。
OpenAI共同創業者でその後独立してEurekaLabsを設立したAndrej Karpathyは以前から「AI宿題の取り締まりは終わった」として学校に対面試験へのシフトを促している。この研究の結論とは同じ方向性だ。
他の研究との一致
この結果は複数の研究と整合している。
AnthropicによるAIコーディング支援の研究では、AIの助けを借りて新たなプログラミングスキルを習得した参加者が、フォローアップテストで対照群より17%低いスコアを記録した(時間短縮効果もなし)。スイスのビジネススクールの研究ではAI利用と批判的思考スコアの負の相関が確認されており、UC Berkeleyの50万件超の成績分析ではChatGPT登場以降に宿題偏重の課目でA評価が13ポイント増加している一方、監督下の試験では同等の改善が見られないことが示されている。方法論や対象が異なる複数の研究が、同じ構図を指し示している点は注目に値する。
詳細はA 26,000-student study shows AI's hidden learning cost takes two full years to surfaceを参照していただきたい。