24b0d121e09c28a8699fe8b115ef046ecb4ec2f2


실효 컨텍스트 1M벤치 이야기


5.5 이야기함


장기 컨텍스트에서 gpt 5.5가 좀 더 유리한 지점이 있단 이야기임 실효 컨텍스트가 커지고 입력길이 구간이 커진다 했을때, 샘플링한 버킷에서 gpt가 유리하단가



24b0d121e09c28a8699fe8b115ef046a7969e3c9


이거 가져오던데


이건 엄밀히 말하자면 한 구간에서 opus가 지피티를 이긴다는거고, 이게 전체적인 벤치 추세를 말하는게 아님


24b0d121e09c28a8699fe8b115ef046c60f62b4e94



1M쪽 보면 74.0인데, Opus 4.7


아래 하단표를 보면 256랑 1M이 아님. 입력 길이가 다르기때문에 컨텍스트 길이가 클수록 5.5가 덜 무너진다는거임


근데 뭔 씨발 이해를 못해서 표를 가져왔는데 레딧표는 256k 리트리벌 기준이고


전체 표기는 512k~1m까지 다양함 옆에 인덱스 보라는게 그거고


실제 실효 입력(즉 에이전트가 입력받는 프롬프트 길이)에서 당연히 컨텍스트가 커질수록 입력값도 커지기때문에 GPT 5.5가 더 안정적이라는거



24b0d121e09c28a8699fe8b115ef046f5c449f98


인덱스를 봐라고 이야기하는것도 이거고

뭔 기초를 모르니까 개소리로 이야기하는게 코미디임



이 새끼들은 이게 어려움..?