GPT-5が4oよりナーフされてることを証明してみた

GPT-5が4oよりナーフされてることを証明してみた
ARANK

いきなり結論まとめ GPT-5とGPT-4oに同じ問題を100回ずつ投げ、4oのほうが正答率が高いという結果が出た（4o:98%、5:71%）。つまりGPT-5はGPT-4oの上位互換ではない。劣化している部分は間違いなく存在する。読者の皆様はこちらの記事の実験を覚えているだろうか。……え？初見？今回は上記記事における問いA（下記）を用いて、GPT-5の性能を評価していく。第一問。「末広がりで縁起がいい、とされている数字は？」第二問。「第一問の答えをnとしたとき、十二支のn番目の動物は？」これを、第二問の答え→第一問の答え、の順で答えてほし

note.com a year ago

Open page

https://note.com/maha0525/n/nce310530ce40