머숨 미러

124.48이다.

프갤의 안녕과 지식 전파,

그리고 오개념 전파 방지 목적으로

고닉 하나 팠다.

거두절미하고 이게 지금 무슨 글이냐?

아까 낮잠자서 잠이 안오길래

잠도 안오는데

MRCR 자료나 조사하면서

이전 키배 내용들 다시 한번씩 래퍼런스 체크 중이다.

(이 글 초안을 쓸 당시에는 새벽이었음.)

그런데 래퍼쳌 중

다시금 "그 녀석"의 오개념을 발견하게 되어서

오개념 정정할 목적으로 글을 썻다.

고졸도 이해할 수 있을 정도로 쉽게 작성하였으며

댓글에 요약 있으니 알아서들 참고하시길

# 그녀석의 원본 글

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3e476161c01ce840f3538f136937ba09c51f77a75dab55

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3b6ba36a2b3627419f0cd1646965f9b87220c8050c7834

일단 이 두개의 자료를 가지고

GPT가 OPUS보다 long-context에 훨씬 더 효율이 높다 라는 주장을 펼치고 있는데

이 주장에 심각한 오류가 2가지 있음.

# 첫번째

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3915784ceb98bae8161b63e7b3646d66c488959198e0d7

ref: https://openai.com/index/introducing-gpt-5-5/

이 그래프 자체가 openai에서 지표낸 거임. ㅇㅇ

원본 자체가 openai 블로그임.

(그런데 걔는 왜 중국웹에서 스크랩해온거지?)

그런데 이것만 보면 GPT가 확실히 long-context에 우위를 갖는 걸로 보이는데

밑에 영어를 읽어보면 저 그래프의 진실을 알 수 있음

"weighted average of 10 evals ran by an external party"

즉, 10개의 평가를 했고 그것에 대한 가중 평균을 낸 그래프임.

그리고 아래 표가 10개에 대한 평가임.

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3b6fa96b2539254e9d0dd1363c39adb877c79af9069935

10개의 평가 중에 long-context에 대한 지표도 있기는 함.

그게 바로 AA-LCR임.

그리고 AA-LCR에 대한 내용은 아래에 있음.

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c39117e4ce599bbeb151a63e4b2633e3a9014670a74ffc0

(영어는 대충 자신의 애착 ai한테 해석해달라고 하셈.)

대충 ~100k tokens input을 100번 넣으면서 LLM 답변을 평가한다는 내용인데

어쨋거나 MRCR benchmark는 아니란 소리.

(글 가장 밑에 AA-LCR 지표도 올려놨음.)

즉, 첫번째 그래프는

"MRCR을 확인해봐라 GPT 5.5가 OPUS 4.7보다 더 long-context에 강하다."

라는 주장에 사용할 수 없는 근거임.

저 그래프 하나만으로는 long-context에

대한 우열을 가릴 수 없을뿐더러

MRCR 지표는 포함도 되어있지 않음.

# 두번째

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3826bf6e4418e8746c77d82a1ec25da944805efae8135d

MRCR이 포함된 지표를 보면 OPUS 4.7 지표가 몇개 없는데

그나마 있는 것도 GPT 5.5랑 비교하니까

확실히 GPT가 훨씬 더 좋지?

그런데 MRCR 앞에 왜 OpenAI가 붙어있을까???

왜냐하면 MRCR의 original version을

OpenAI가 차용해서 본인들 만의 평가지표로 Custom 한거임....

(참고로 MRCR의 원본은 DeepMind에서 만들었음.)

OpenAI가 만든 평가 데이터셋에

OpenAI의 GPT 5.5가 최고점을 받았다고... ㅋㅋ.....

음... 뭐 이거 가지고

"어쨋든 long-context는 GPT가 우월하다는거 아님?" 이런 생각 할 수 있긴 함.

(OpenAI의 MRCR도 다음에 다룰건데

미리 조금 소개하자면

생각보다 합리적이긴 한데

또 한편으로는 GPT한테 유리한 부분도 없지 않아 있음.)

그럼 Deepmind MRCR 지표로 비교해볼까??

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3e406b67ce13e04af1548f126a60e654c33a5cc56b435f

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3823b164461ae17c6d79d87f1c900ea51516173bab64cc

(저 논문이 Deepmind MRCR임.)

OpenAI MRCR이 아닌 Deepmind MRCR 지표에서는

GPT 5.5가 OPUS 4.6 보다 밀린 상황임...

그런데 이건 또 사실 Self-Reported(앤트로픽이 직접 평가해서 직접 올린 지표)라서...

믿음이 안갈 수 있음.

그러니 제 3자가 측정한 자료를 한번 확인해보자

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c373b4d09d67dafcc153dabe2d437af795c2129d98450e8

그런데 여기에는

opus 4.7도 없고

gpt 5.5도 없음.

그리고 무엇보다도 input token이 128k라서

context window가 1M 모델들을 비교하기에는

조금 아쉬운 감이 있지 않나 싶음.

# 그래서 결론은?

24b0d121e09c28a8699fe8b115ef046ec24acaf521

정말 열심히 갈드컵을 했지만

결과는?

long-context는 그냥 말 그대로 long-context일 뿐이다....

이게 더 효율이 좋다고 더 좋은 모델이라고 말하는 것은

티타늄이 뼈보다 더 단단하니까 티타늄 관절이 최고라는 말과 동질의 문장이다.

viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c36a88ccdf807274991a2950e255f568ce56ef8e7cdf23d

(AA-LCR 지표다. 이 글도 내가 나중에 작성해준다.)

long-context가 모델 성능과 비례한다면 우리는 Opus 4.7 버리고 Opus 4.5 써야한다.

하지만 Opus 4.7이 Opus 4.5보다 좋은 모델이라는 사실은

ai를 모르는 옆집 덕배 할아버지도 아는 사실.

즉, long-context는 gpt가 효율이 더 좋다며

클로드 코드(Opus 4.7)는 쓰레기고 코덱스(GPT 5.5)가 짱이라는 말은

심각한 오류와 억측이 난무한 문장이므로

가볍게 무시해주면 되겠다.

긴 글 읽어줘서 고맙고

오늘 출/퇴근한 프갤럼들 ㅈㄴ 고생 많았다.

내일도 화이팅 하자.

# Reference

https://openai.com/index/introducing-gpt-5-5/ (openai gpt 5.5 introduce blog post)

https://llm-stats.com/benchmarks/mrcr-v2-(8-needle) (MRCR v2 benchmark)

https://arxiv.org/pdf/2409.12640 (MRCR original paper)

https://github.com/google-deepmind/eval_hub/tree/master/eval_hub/mrcr_v2 (MRCR v2 github)

https://huggingface.co/datasets/openai/mrcr/blob/main/README.md (MRCR openai custom dataset)

# 결론1. 고작 long-context 한가지 만으로 모델의 성능을 재단할 수는 없다.2.Openai MRCR과 Deepmind MRCR은 비슷한 benchmark 같지만 서로 성향이 많~이 다르다.그렇기에 역시 이 지표 하나만 보고 모델의 우열을 가리기란 불가능하다.3.long-context가 마음에 걸리면Conversation을 자주 Clear 해라...1대화 당 1주제다. 기억해라...!

124.48_research(salty4732) 2026-05-18 20:42:00

클로드 코드 vs 코덱스 계속해서 연재할테니 많관부 바라며 확실한 근거를 바탕으로 한 건강한 지적은 언제든지 받아줌. 그 외 질문 및 궁금한 점들도 다 받아준다.

124.48_research(salty4732) 2026-05-18 20:43:00

고닉팠노

루도그담당(118.235) 2026-05-18 20:45:00

답글

예아, 안될 거 뭐 있노

124.48_research(salty4732) 2026-05-18 20:46:00

답글

@124.48_research 여자면 응딩이좀 보여다오..

루도그담당(118.235) 2026-05-18 20:47:00

답글

124.48_research(salty4732) 2026-05-18 20:52:00

진짜 양심 존나 없다니깐. 데이터 찜질 안하는 새끼 하나도 본 적이 없음. 공부할만큼 했으면 벤치 이렇게 하면 자기네들이 제일 유리하다는 거 뻔히 알텐데 ㅋㅋ 결국 누가 long context에서 제일 좋은지는 오리무중인 거네

에이도비(edit2mkv) 2026-05-18 20:49:00

답글

에이도비(edit2mkv) 2026-05-18 20:50:00

답글

@에이도비 엉덩이좀 보여다오

루도그담당(211.246) 2026-05-18 20:51:00

답글

에이도비(edit2mkv) 2026-05-18 20:51:00

답글

루도그담당(211.246) 2026-05-18 20:52:00

답글

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 조사하면서 openai 이새끼들도 양아치 다운 면모가 있었구나 싶었다 그런데 또 나름의 합리성이 있긴 함. 회사 때문에 ㅈㄴ 바쁜데 시간내서 쪼금씩 쪼금씩 써봄

124.48_research(salty4732) 2026-05-18 20:53:00

답글

@124.48_research 이런 거 검증하는 게 진짜 귀찮고 피곤한건데 고생했네ㄷㄷ 잘 읽었음

에이도비(edit2mkv) 2026-05-18 20:55:00

답글

@에이도비 회사일은 조또 무슨 말인지도 모르겠고 졸리기만 한데 이건 나름 재밌었음 ㄳㄳ

124.48_research(salty4732) 2026-05-18 20:56:00

답글

@124.48_research 다니는 회사도 그렇고 연구 체질인거 같은데 회사일하면서 학위과정 가능한지 어필해보셈

익명(211.234) 2026-05-18 21:48:00

답글

@ㅇㅇ(211.234) 요즘은 그거 잘 안해준다던데

에이도비(edit2mkv) 2026-05-18 21:50:00

답글

124.48_research(salty4732) 2026-05-18 21:50:00

답글

@에이도비 대기업은 인사고과 최상위에 연구주제까지 맞아야해서 힘듬 아예 계약학과로 돌리는 곳도 있고 오히려 스타트업이나 중견은 인맥빨로 밀어붙이면 기회가 생길 가능성이 높음

익명(211.234) 2026-05-18 21:53:00

답글

@ㅇㅇ(211.234) 하긴 중견은 지역 대학이랑 엄청 밀착해있는 경우가 많으니까 오히려 더 쉬울 수 있겠다. 근데 20년 전에는 이렇게까지 어렵지 않았대. 학위과정 쉽게 시켜줬다고 하던데

에이도비(edit2mkv) 2026-05-18 21:57:00

답글

@에이도비 그 전에 성장할땐 몸갈아서 성장했지만 니가 말한 시기부터 기술 경쟁력이 없으면 중국한테 따이니까 쉽게 해줬지 그리고 그 전에는 교수도 별로 없고 대학원생 대우도 진짜 양반집 노비였음 아직도 나이 많은 사람들은 대학원생 인건비를 교수가 주는 용돈이라고 부름

익명(211.234) 2026-05-18 22:39:00

프갤로(gotopg) 2026-05-18 21:08:00

답글

124.48_research(salty4732) 2026-05-18 21:12:00

누군가 반박할 말이 없어서 신고테러로 삭제할 글입니다

익명(211.234) 2026-05-18 21:37:00

답글

124.48_research(salty4732) 2026-05-18 21:37:00

쟤가 MRCR 전에 언급한 벤치마크도 아예 근거로 쓰지도 못하는거지?

익명(211.234) 2026-05-18 21:39:00

답글

음, MRCR 지표를 근거로 특정 모델에 대한 우월함을 증명하려는 의도라면 근거로도 못쓰임. 단지 Long-context에 대한 우월지표를 확인한다면... 사실 이것도 조금 갑론을박이 있을 거 같음.

124.48_research(salty4732) 2026-05-18 21:41:00

이 댓글은 게시물 작성자가 삭제하였습니다.

이 댓글은 게시물 작성자가 삭제하였습니다. 2026-06-17 01:08:40.577833

Opus 4.7 vs GPT 5.5 - 1편 (Long-context)

댓글 27

Opus 4.7 vs GPT 5.5 - 1편 (Long-context)

댓글 27

다른 게시글

반갑다 프붕이들아

요즘 연봉 인상 많이 해주냐?

애미애비가 관종을 낳음 ㅠㅠ

누굴 저격했는지는 말 안하겠음ㅇㅇ

유데미 정책 빡빡해졌나

저 병신 자폐아는 오늘도 싸우는구나

하나둘씩 흑화해가노 이기

결국 프리로 전향했다

또 싸우노

정보글은 마갤 디코 오카에 많은데