머숨 미러

왜 자꾸 귀찮게 날파리새끼마냥 내 이야기를 하는데 낄까

애초에 모델 내부의 방식은 어차피 알수도 없고 공개 벤치로 뭐가 더 낫니 알수도 없고, 클로드 코드랑 코덱스 하네스 같은걸 모르니까 완전 정답은 아닌데

Our latest model, Claude Opus 4.7, is now generally available. Opus 4.7 is a notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks.

www.anthropic.com

https://www.anthropic.com/news/claude-opus-4-7

https://openai.com/ko-KR/index/introducing-gpt-5-5/

그냥 두개 회사의 소개문 보면 각각 내세우는 가치가 다름

SWE 벤치 프로 같은 경우 깃헙 이슈류 해결에서는 opus 4.7쪽이 우세하지만

터미널 벤치 2.0의 경우에 지피티가 우세함 이는 오케스트레이션 환경에서 지피티가 우세하다는 걸 뒷받침하기도 하지만.

즉 고수준 코딩과 저수준 코딩에서 각각 다른 성능 차이가 있다는거임. 터미널 복구가 편하다는 거 자체가 기본적으로 터미널 작업을 해야하는 저수준에서 편리하다는거니까.

터미널/명령행 도구를 주로 써야하는 백엔드와 저수준 특성상 지피티가 강하고, 고수준 특성상 OPUS가 강하다

처음에 주장했던대로 걍 프론트는 오푸스가 강하다라는거

그리고 둘이 1:1로 매칭되는 벤치마크가 잘 없음.

근데 각각 중요시하는 벤치마크를 보면

gpt 5.5는 하네스의 의존도가 크고, tool 권한이 커질수록 정책 설계가 필요한 모델인데, 코덱스쪽의 설계가 클로드 코드보다 일관됨

따라서 실제 장기 문맥에서는 모델 측면에서 OPUS가 유리할 수 있지만 하네스 완성도에 따라서 코덱스가 더 유리한 경우가 많다는거

실제 외부 커넥터사용시 안전 정책에 대해서는 GPT가 일괄적으로 높게 나오기때문.

다만 하나의 작업을 깊게 기억하는 능력은 오푸스 4.7이 좋단거지.

OPUS의 벤치마크가 말하는 결론의 경향성을 묶으면

코드 리뷰/PR 검토/ UI 대시 보드 같은 인터페이스 구현에 따른 UI적 일관성이 강하다

이거고

5.5의 벤치마크가 말하는 결론의 경향성을 묶으면

저수준 작업/모듈화된 작업의 깊이에서 강력하다라고 묶을 수 있음. 이유가 간단함.

표를 줘도 제대로 해석도 못하면서 뭐하러 자꾸 나한테 앵겨붙냐

대가리수 가지고 밀어붙이면 니가 맞다 생각하나봄?

124.48이 나한테 안 앵겨붙었으면 함. 수준이 너무 떨어져서

댓글 0

124.48이 나한테 안 앵겨붙었으면 함. 수준이 너무 떨어져서

댓글 0

다른 게시글

ㅋㅋ 녀석, 패배 선언도 없이 빤스런 했네

지가 생각해도 지가 틀렸다는 걸 아는 거지ㅋㅋ

대체 원본 레퍼런스와 시스템 카드를 가져오는 나한테 뭔

돈을 버는 목적은 2천젼이나 현생에서도 답이 없구나.

124.48같은 애들이 대한민국에 많아서 문제라고 생각함. 이유있음

그래도 너도 일말의 염치는 있구나?

옥상에서 떨어지면 과거로 갑니까?

책이나 봐야지

124.48 또 말바꾸네. 참 비참한 녀석이야

오늘은 또 무슨 변명을 할까?