39b5d535ecdc3fb362bec4bc02c8696fb256f54e759206ade02904d446271eb642094dc7c0068215af67e6ba51a9a188ee77dd597996765e70


추론 지표는 다른 모델에 비해 압도적인건 preview랑 mini부터 그랬었는데

그러기엔 수학 지표(mathematics) 는 1206보다 낮고 다른 모델들과 엇비슷함

코딩은 뭐....그렇다 치고 데이터 분석 지표(data analysis) 도 오히려 preview보다 낮아지고 다른 모델들과도 엇비슷

추론을 잘하는데 수학이랑 코딩이랑 데이터분석에서 큰 우위를 점하지 못한다? 뭔가 모순적이라고 봄. 트위터에서도 이 부분을 지적하는 여론이 있기도 하고 ㅇㅇ

특히 코딩 지표는 대부분 코드 중간중간에 공백을 내서 여기에 들어갈 코드가 뭔지를 맞추는 형식으로 측정하고, 전체 코드의 흐름이랑 작동 방식을 정확하게 이해하고 추론할 수 있어야 높은 점수를 받을 수 있음.

그리고 데이터 분석 또한 추론 성능의 유무가 지배적이고.


그냥 조금 과장되게 말하면 reasoning average 항목에 과적합된 파인튜닝 모델로밖에 안보임. 다른 항목은 그렇다 치고 추론이 강점이라면 그에 해당하는 지표에서도 의미있는 수치를 보여줘야 한다고 생각함.

(global average는 전체 평균이니까 reasoning average가 평균을 엄청 끌어올려서 높게 측정된거고)


- dc official App