GDPval-AA에서 Max reasoning SOTA 달성
그러나, 벤딩 벤치에서 여러 '이상한' 우려 현상이 발생하고, Max에서 더 심해졌음 (아마 예전에 '사기를 쳐서' 점수가 높았던 것을 방지하는 추론이 들어간 듯)
벤치마크에 '신경써서' 학습한 것이 크게 드러나긴 해서, Extra 정도가 적절할 수도 있음
비용 절감 및 생산성 향상
고속 모드(Fast Mode) 비용 인하: 모델이 2.5배 빠른 속도로 작업하는 '고속 모드'의 비용이 Opus 4.7 대비 3배 저렴해졌습니다.
멀티모달 효율성: 데이터 및 지식 작업(Genie 등)에서 PDF, 다이어그램 분석 시 토큰 비용이 Opus 4.7 대비 61% 저렴해졌습니다.
기존 가격 동결: 일반 사용 가격은 기존 Opus 4.7과 동일하게 유지(입력 토큰 백만 개당 $5, 출력 토큰 백만 개당 $25)되면서 성능만 업그레이드되었습니다.
31일까지는 무조건 gpt ㅇㅅㅇ
GDPval-AA에서 SOTA 찍은 건 대단한데, 그래프 보니까 Max 설정이 오히려 자산 성과가 낮게 나오는 게 신기하네. 벤치마크 점수 높이려고 억지로 맞춘 느낌이라서 그런지 성능 면에서는 좀 애매할 수도 있겠다.