https://www.digitalapplied.com/blog/gpt-5-5-vs-claude-opus-4-7-frontier-comparison
Head-to-head: GPT-5.5 and Claude Opus 4.7 on agentic coding, computer use, 1M context, pricing, and the right model for each production workload.
www.digitalapplied.com
일단 당연히 컨텍스트 윈도우는
두 모델 전부 동일함.
그런데 각기 다른 부분에서 서로 차이가 나는데
TERMINAL-BENCH 2.0
>> 계획 수립 + 반복 + 도구 조율 + 에러나면 다음 액션 결정하는 거
이런거는 GPT가 더 잘함
즉, GPT가 계획하고 실행하는 작업에 강함
SWE-BENCH PRO
>> ㅈㄴ 어렵고 커다란 레포에서 버그를 얼마나 잘 고치는지에 대한 능력
이건 OPUS 4.7이 쪼끔 더 잘함
즉, CLAUDE는 기존 코드베이스를 이해하고 수정하는 작업에 강함
Long-context
요즘 왠만한 모델들은 전부 다 1M 컨텍스트를 갖는데
이게 광고용 아님?
ㄹㅇ 1M 컨텍스트를 잘 추론하느냐?에 대한 의심으로부터 시작한 실험임.
https://blog.wentuo.ai/en/claude-opus-4-7-long-context-regression-en.html
Claude Opus 4.7 long context capability regression test: 3 truths behind the halving of the MRCR benchmark – WentuoAI API
blog.wentuo.ai
결론
1. 계획짤 때에는 GPT 5.5 승
2. 코드 디버깅할 때에는 OPUS 4.7 승
3. Long context에 대해서는 GPT 5.5가 압도적으로 승
ㅆㅇㅆ야 이거 정리가 어려워 혹시?
1M 1k 구별도 못하는 사람한테 너무 많이 떠먹여준다
TERMINAL-BENCH 2.0 SWE-BENCH PRO Long-context >> 이거는 MRCR라는 벤치를 사용하는데 각기 어떻게 테스트하는지는 나도 방금 알게된 벤치라서 자세히는 모름 ㅇㅇ 그냥 표만 보고 스크랩해온 거니 참고할 것
아니 opus가 말도 안되게 비싼데 같은 선상에 놓고 비교해도 이 정도라고?? 지피티 가성비 ㅁㅊㄷ네 - dc App
각 벤치 실험을 어떻게 했는지는 아직 확인해보진 않았는데 사람들이 코덱스 좋다 좋다 하는 이유에 대한 근거 정도는 될듯
@ㅇㅇ(124.48) 근데 클로드는... 내 생각엔 자꾸 무슨 튜닝 같은 걸 하는 거 같아서 언제 측정했는지도 중요할 듯 자꾸 모델을 갈아끼우는 거 같더라고 아키텍쳐만 그대로고 나머진 계속 바꾸는 듯 시점도 중요한 거 같다 요즘 클로드는 너무 쓰레기임 - dc App
@에이도비 나도 맥스 써서 그냥 쓰긴 하는데 코덱스 잠깐 써봤을 때 제법 괜찮은 경험이었음 팀원분 중 한분도 클코에서 코덱스로 갈아탔더라고
@ㅇㅇ(124.48) 난 그래서 cursor씀. 조금이라도 성능 좀 이상하다 싶으면 모델 바꾸면 되니까 ㅋㅋ