머숨 미러

24b0d121e09c28a8699fe8b115ef046ecb4ec2f2

실효 컨텍스트 1M벤치 이야기

5.5 이야기함

장기 컨텍스트에서 gpt 5.5가 좀 더 유리한 지점이 있단 이야기임 실효 컨텍스트가 커지고 입력길이 구간이 커진다 했을때, 샘플링한 버킷에서 gpt가 유리하단가

24b0d121e09c28a8699fe8b115ef046a7969e3c9

이거 가져오던데

이건 엄밀히 말하자면 한 구간에서 opus가 지피티를 이긴다는거고, 이게 전체적인 벤치 추세를 말하는게 아님

24b0d121e09c28a8699fe8b115ef046c60f62b4e94

1M쪽 보면 74.0인데, Opus 4.7

아래 하단표를 보면 256랑 1M이 아님. 입력 길이가 다르기때문에 컨텍스트 길이가 클수록 5.5가 덜 무너진다는거임

근데 뭔 씨발 이해를 못해서 표를 가져왔는데 레딧표는 256k 리트리벌 기준이고

전체 표기는 512k~1m까지 다양함 옆에 인덱스 보라는게 그거고

실제 실효 입력(즉 에이전트가 입력받는 프롬프트 길이)에서 당연히 컨텍스트가 커질수록 입력값도 커지기때문에 GPT 5.5가 더 안정적이라는거

24b0d121e09c28a8699fe8b115ef046f5c449f98

인덱스를 봐라고 이야기하는것도 이거고

뭔 기초를 모르니까 개소리로 이야기하는게 코미디임

이 새끼들은 이게 어려움..?

그래프는 512K 1M 값 맞는데?ㅇㅅㅇ

프갤로(gotopg) 2026-05-18 16:55:00

답글

하, 진짜 씨발 그래프 아예 못보노 형이 설명해줌.GPT-5.5128K-256K: 87.5512K-1M: 74.0GPT-5.4128K-256K: 79.3512K-1M: 36.6Opus 4.7128K-256K: 59.2512K-1M: 32.2이런식으로 되있는데, 저 표는 구간 믹싱함 실제로 공지한 값도 그렇고 저거 레딧 선동인거고

ㅆㅇㅆ(124.216) 2026-05-18 16:58:00

답글

레딧표의 256K / 1M 라벨은 엄밀한 원표 라벨이 아니다. 256K = 128K-256K bucket 1M = 512K-1M bucket 이렇게 구간 설정되있고, 그다음에 앤트로픽 실제 발표 값이 아님. 앤트로픽 실제 발표값은 지피티 표에 나온거임. 기업이 소송 걸리기때문에 벤치값 더 정직하게 적는거라.

ㅆㅇㅆ(124.216) 2026-05-18 16:59:00

답글

내가 가져온 표=실제 오픈 AI랑 앤트로픽이 공개한거 레딧표= OPUS 공식 벤치 발표 자료가 아니라 레딧발 수정임. 거기에 구간 믹싱되서 값 자체가 다름. 256k도 보면 실제 128~256k 버킷 수정이고

ㅆㅇㅆ(124.216) 2026-05-18 17:01:00

답글

이걸 설명을 해줘야함?

ㅆㅇㅆ(124.216) 2026-05-18 17:01:00

답글

https://www.anthropic.com/news/claude-opus-4-6
실제로
https://www-cdn.anthropic.com/6a5fa276ac68b9aeb0c8b6af5fa36326e0e166dd.pdf
이게 오푸스 4.6 시스템 카드임

ㅆㅇㅆ(124.216) 2026-05-18 17:05:00

답글

실제 공식쪽 표는 지피티 표가 맞고, 니가 가져온건 레딧발 믹싱된거임 걍

ㅆㅇㅆ(124.216) 2026-05-18 17:07:00

답글

나는 너 같이 숫자 조차 못보는 저능아들보면 좀 갑갑함. 솔직히 니 수준 그러니까 루비랑 어울려 노는게 맞다 생각을 함. 그니까 아는 척을 하지말자 오케이? 너 따위랑 이야기하는데 앞으로 시간 낭비 하고 싶지 않음.

ㅆㅇㅆ(124.216) 2026-05-18 17:10:00

답글

@ㅆㅇㅆ(124.216) 512K-1M 을 1M으로 표기했다고 선동이라고 하는거?ㅇㅅㅇ

프갤로(gotopg) 2026-05-18 19:04:00

'프갤로'부터 시작해서 대체 왜 한글을 못 이해하냐

댓글 9

'프갤로'부터 시작해서 대체 왜 한글을 못 이해하냐

댓글 9

다른 게시글

소설) 대통령이 삼x 노조 파업에 긴급조정권 발동할듯.

포용이고 지랄이고 열등감에 찌든 병신들이 문제임

와 납품 한건 드디어 끝냈다

나는 쉬었음 인구

뉴프로 체스 오씨씨도 쳐부셔버렸습니다.

대놓고 어그로꾼, 관심종자를 혼자 옹호해주는 심리를 모르겠음

체스한판 둘사람 뉴프로 커뮤니티로 와라

진짜로 쓸데없는 생각으로 시간 낭비하시는분 계시나요

내가 오래전 10년전부터 말함 전쟁은 재벌기득권들의 수단이라고

슬슬 사람들이 물리세계를 다루는 개발에 눈을뜨는군