연구원인데 살짝 난이도 있는 연구 결과 해석을 위해 gpt o1, 2.5 프로, 그록 씽킹에 동일한 질문으로 물어 봤음.

그록 나름 이공계 관련한 거 잘했었는데 이 문제에서는 첫번째, 두번째 답변 둘다 헛다리 짚기 시작해서 그냥 탈락. 한국어라 그런가? 아니면 멍청해졌나?


2.5프로랑 o1은 막상 막하이고 2.5프로가 더 나은 답변들도 살짝 있었음. 근데 결국 결정적인 포인트는 o1이 잡았음.

물론 2.5프로가 가성비, 컨텍스트 길이, 속도, 멀티모달 능력 다 압도적이라 2.5프로가 우위지만 '지능'자체는 o1보다도 똑똑하다고 보기는 어렵다고 보임.