실효 컨텍스트 1M벤치 이야기
5.5 이야기함
장기 컨텍스트에서 gpt 5.5가 좀 더 유리한 지점이 있단 이야기임 실효 컨텍스트가 커지고 입력길이 구간이 커진다 했을때, 샘플링한 버킷에서 gpt가 유리하단가
이거 가져오던데
이건 엄밀히 말하자면 한 구간에서 opus가 지피티를 이긴다는거고, 이게 전체적인 벤치 추세를 말하는게 아님
1M쪽 보면 74.0인데, Opus 4.7
아래 하단표를 보면 256랑 1M이 아님. 입력 길이가 다르기때문에 컨텍스트 길이가 클수록 5.5가 덜 무너진다는거임
근데 뭔 씨발 이해를 못해서 표를 가져왔는데 레딧표는 256k 리트리벌 기준이고
전체 표기는 512k~1m까지 다양함 옆에 인덱스 보라는게 그거고
실제 실효 입력(즉 에이전트가 입력받는 프롬프트 길이)에서 당연히 컨텍스트가 커질수록 입력값도 커지기때문에 GPT 5.5가 더 안정적이라는거
인덱스를 봐라고 이야기하는것도 이거고
뭔 기초를 모르니까 개소리로 이야기하는게 코미디임
이 새끼들은 이게 어려움..?
그래프는 512K 1M 값 맞는데?ㅇㅅㅇ
하, 진짜 씨발 그래프 아예 못보노 형이 설명해줌.GPT-5.5128K-256K: 87.5512K-1M: 74.0GPT-5.4128K-256K: 79.3512K-1M: 36.6Opus 4.7128K-256K: 59.2512K-1M: 32.2이런식으로 되있는데, 저 표는 구간 믹싱함 실제로 공지한 값도 그렇고 저거 레딧 선동인거고
레딧표의 256K / 1M 라벨은 엄밀한 원표 라벨이 아니다. 256K = 128K-256K bucket 1M = 512K-1M bucket 이렇게 구간 설정되있고, 그다음에 앤트로픽 실제 발표 값이 아님. 앤트로픽 실제 발표값은 지피티 표에 나온거임. 기업이 소송 걸리기때문에 벤치값 더 정직하게 적는거라.
내가 가져온 표=실제 오픈 AI랑 앤트로픽이 공개한거 레딧표= OPUS 공식 벤치 발표 자료가 아니라 레딧발 수정임. 거기에 구간 믹싱되서 값 자체가 다름. 256k도 보면 실제 128~256k 버킷 수정이고
이걸 설명을 해줘야함?
https://www.anthropic.com/news/claude-opus-4-6
실제로
https://www-cdn.anthropic.com/6a5fa276ac68b9aeb0c8b6af5fa36326e0e166dd.pdf
이게 오푸스 4.6 시스템 카드임
실제 공식쪽 표는 지피티 표가 맞고, 니가 가져온건 레딧발 믹싱된거임 걍
나는 너 같이 숫자 조차 못보는 저능아들보면 좀 갑갑함. 솔직히 니 수준 그러니까 루비랑 어울려 노는게 맞다 생각을 함. 그니까 아는 척을 하지말자 오케이? 너 따위랑 이야기하는데 앞으로 시간 낭비 하고 싶지 않음.
@ㅆㅇㅆ(124.216) 512K-1M 을 1M으로 표기했다고 선동이라고 하는거?ㅇㅅㅇ