왜 자꾸 귀찮게 날파리새끼마냥 내 이야기를 하는데 낄까


애초에 모델 내부의 방식은 어차피 알수도 없고 공개 벤치로 뭐가 더 낫니 알수도 없고, 클로드 코드랑 코덱스 하네스 같은걸 모르니까 완전 정답은 아닌데

Introducing Claude Opus 4.7

Our latest model, Claude Opus 4.7, is now generally available. Opus 4.7 is a notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks.

www.anthropic.com



https://www.anthropic.com/news/claude-opus-4-7

https://openai.com/ko-KR/index/introducing-gpt-5-5/



그냥 두개 회사의 소개문 보면 각각 내세우는 가치가 다름


SWE 벤치 프로 같은 경우 깃헙 이슈류 해결에서는 opus 4.7쪽이 우세하지만


터미널 벤치 2.0의 경우에 지피티가 우세함 이는 오케스트레이션 환경에서 지피티가 우세하다는 걸 뒷받침하기도 하지만.


즉 고수준 코딩과 저수준 코딩에서 각각 다른 성능 차이가 있다는거임. 터미널 복구가 편하다는 거 자체가 기본적으로 터미널 작업을 해야하는 저수준에서 편리하다는거니까.


터미널/명령행 도구를 주로 써야하는 백엔드와 저수준 특성상 지피티가 강하고, 고수준 특성상 OPUS가 강하다


처음에 주장했던대로 걍 프론트는 오푸스가 강하다라는거


그리고 둘이 1:1로 매칭되는 벤치마크가 잘 없음.


근데 각각 중요시하는 벤치마크를 보면


gpt 5.5는 하네스의 의존도가 크고, tool 권한이 커질수록 정책 설계가 필요한 모델인데, 코덱스쪽의 설계가 클로드 코드보다 일관됨


따라서 실제 장기 문맥에서는 모델 측면에서 OPUS가 유리할 수 있지만 하네스 완성도에 따라서 코덱스가 더 유리한 경우가 많다는거


실제 외부 커넥터사용시 안전 정책에 대해서는 GPT가 일괄적으로 높게 나오기때문.


다만 하나의 작업을 깊게 기억하는 능력은 오푸스 4.7이 좋단거지. 


OPUS의 벤치마크가 말하는 결론의 경향성을 묶으면


코드 리뷰/PR 검토/ UI 대시 보드 같은 인터페이스 구현에 따른 UI적 일관성이 강하다


이거고 


5.5의 벤치마크가 말하는 결론의 경향성을 묶으면


저수준 작업/모듈화된 작업의 깊이에서 강력하다라고 묶을 수 있음. 이유가 간단함. 


표를 줘도 제대로 해석도 못하면서 뭐하러 자꾸 나한테 앵겨붙냐


대가리수 가지고 밀어붙이면 니가 맞다 생각하나봄?