124.48이다.

프갤의 안녕과 지식 전파,

그리고 오개념 전파 방지 목적으로

고닉 하나 팠다.



거두절미하고 이게 지금 무슨 글이냐?



아까 낮잠자서 잠이 안오길래

잠도 안오는데

MRCR 자료나 조사하면서

이전 키배 내용들 다시 한번씩 래퍼런스 체크 중이다.

(이 글 초안을 쓸 당시에는 새벽이었음.)


그런데 래퍼쳌 중

다시금 "그 녀석"의 오개념을 발견하게 되어서

오개념 정정할 목적으로 글을 썻다.


고졸도 이해할 수 있을 정도로 쉽게 작성하였으며

댓글에 요약 있으니 알아서들 참고하시길





# 그녀석의 원본 글


viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3e476161c01ce840f3538f136937ba09c51f77a75dab55


viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3b6ba36a2b3627419f0cd1646965f9b87220c8050c7834




일단 이 두개의 자료를 가지고 

GPT가 OPUS보다 long-context에 훨씬 더 효율이 높다 라는 주장을 펼치고 있는데

이 주장에 심각한 오류가 2가지 있음.





# 첫번째


viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3915784ceb98bae8161b63e7b3646d66c488959198e0d7


ref: https://openai.com/index/introducing-gpt-5-5/


이 그래프 자체가 openai에서 지표낸 거임. ㅇㅇ 

원본 자체가 openai 블로그임.

(그런데 걔는 왜 중국웹에서 스크랩해온거지?)



그런데 이것만 보면 GPT가 확실히 long-context에 우위를 갖는 걸로 보이는데

밑에 영어를 읽어보면 저 그래프의 진실을 알 수 있음



"weighted average of 10 evals ran by an external party"



즉, 10개의 평가를 했고 그것에 대한 가중 평균을 낸 그래프임.

그리고 아래 표가 10개에 대한 평가임.



viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3b6fa96b2539254e9d0dd1363c39adb877c79af9069935



10개의 평가 중에 long-context에 대한 지표도 있기는 함.

그게 바로 AA-LCR임.

그리고 AA-LCR에 대한 내용은 아래에 있음.




viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c39117e4ce599bbeb151a63e4b2633e3a9014670a74ffc0

(영어는 대충 자신의 애착 ai한테 해석해달라고 하셈.)



대충 ~100k tokens input을 100번 넣으면서 LLM 답변을 평가한다는 내용인데

어쨋거나 MRCR benchmark는 아니란 소리.

(글 가장 밑에 AA-LCR 지표도 올려놨음.)



즉, 첫번째 그래프는

"MRCR을 확인해봐라 GPT 5.5가 OPUS 4.7보다 더 long-context에 강하다."

라는 주장에 사용할 수 없는 근거임.



저 그래프 하나만으로는 long-context에

대한 우열을 가릴 수 없을뿐더러

MRCR 지표는 포함도 되어있지 않음.







# 두번째


viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3826bf6e4418e8746c77d82a1ec25da944805efae8135d

MRCR이 포함된 지표를 보면 OPUS 4.7 지표가 몇개 없는데

그나마 있는 것도 GPT 5.5랑 비교하니까

확실히 GPT가 훨씬 더 좋지?



그런데 MRCR 앞에 왜 OpenAI가 붙어있을까???




왜냐하면 MRCR의 original version을

OpenAI가 차용해서 본인들 만의 평가지표로 Custom 한거임....

(참고로 MRCR의 원본은 DeepMind에서 만들었음.)



OpenAI가 만든 평가 데이터셋에

OpenAI의 GPT 5.5가 최고점을 받았다고... ㅋㅋ.....




음... 뭐 이거 가지고 

"어쨋든 long-context는 GPT가 우월하다는거 아님?" 이런 생각 할 수 있긴 함.

(OpenAI의 MRCR도 다음에 다룰건데

미리 조금 소개하자면

생각보다 합리적이긴 한데

또 한편으로는 GPT한테 유리한 부분도 없지 않아 있음.)




그럼 Deepmind MRCR 지표로 비교해볼까??


viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3e406b67ce13e04af1548f126a60e654c33a5cc56b435f



viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c3823b164461ae17c6d79d87f1c900ea51516173bab64cc

(저 논문이 Deepmind MRCR임.)


OpenAI MRCR이 아닌 Deepmind MRCR 지표에서는

GPT 5.5가 OPUS 4.6 보다 밀린 상황임...




그런데 이건 또 사실 Self-Reported(앤트로픽이 직접 평가해서 직접 올린 지표)라서... 

믿음이 안갈 수 있음.



그러니 제 3자가 측정한 자료를 한번 확인해보자



viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c373b4d09d67dafcc153dabe2d437af795c2129d98450e8



그런데 여기에는

opus 4.7도 없고

gpt 5.5도 없음.

그리고 무엇보다도 input token이 128k라서

context window가 1M 모델들을 비교하기에는

조금 아쉬운 감이 있지 않나 싶음.








# 그래서 결론은?




24b0d121e09c28a8699fe8b115ef046ec24acaf521





정말 열심히 갈드컵을 했지만

결과는?


long-context는 그냥 말 그대로 long-context일 뿐이다....

이게 더 효율이 좋다고 더 좋은 모델이라고 말하는 것은

티타늄이 뼈보다 더 단단하니까 티타늄 관절이 최고라는 말과 동질의 문장이다.




viewimage.php?id=3dafdf21f7d335ab67b1d1&no=24b0d769e1d32ca73de784fa11d02831071e09b851a6cb2652e31f1a498a083c895ab3c0d957ea565e547bb4ca789c36a88ccdf807274991a2950e255f568ce56ef8e7cdf23d

(AA-LCR 지표다. 이 글도 내가 나중에 작성해준다.)


long-context가 모델 성능과 비례한다면 우리는 Opus 4.7 버리고 Opus 4.5 써야한다.

하지만 Opus 4.7이 Opus 4.5보다 좋은 모델이라는 사실은

ai를 모르는 옆집 덕배 할아버지도 아는 사실.



즉, long-context는 gpt가 효율이 더 좋다며

클로드 코드(Opus 4.7)는 쓰레기고 코덱스(GPT 5.5)가 짱이라는 말은

심각한 오류와 억측이 난무한 문장이므로

가볍게 무시해주면 되겠다.




긴 글 읽어줘서 고맙고

오늘 출/퇴근한 프갤럼들 ㅈㄴ 고생 많았다.

내일도 화이팅 하자.





# Reference

https://openai.com/index/introducing-gpt-5-5/ (openai gpt 5.5 introduce blog post)


https://llm-stats.com/benchmarks/mrcr-v2-(8-needle) (MRCR v2 benchmark)


https://arxiv.org/pdf/2409.12640 (MRCR original paper)


https://github.com/google-deepmind/eval_hub/tree/master/eval_hub/mrcr_v2 (MRCR v2 github)


https://huggingface.co/datasets/openai/mrcr/blob/main/README.md (MRCR openai custom dataset)