arc, 에이단 등 다른 벤치도 다 압도적인데 수학이랑 코딩이 다른 애들이랑 비슷하다고 이상하다는 건 좀.

추론에서 과적합 된 거 같다면 수학에서 o1에 좀 약한 문제들이 나왔다고도 볼 수 있는 거 아닌가? 흠.