평일 내내 잠자는 시간도 줄여가며
열심히 글을 썻는데
글을 아무리 써도 그냥 노잼 지루한 얘기만 늘어놓는 거 같아서
그냥 화끈하게 글 싹다 밀어버리고
처음부터
이해하기 쉽고 가볍게 즐겨볼 수 있는 수준으로 다시 썻다.
바쁘면 맨 마지막 요약한 거 있으니 그거만 봐도 되고
시간 남으면 1편도 한번 둘러보고 와라.
https://gall.dcinside.com/board/view/?id=programming&no=2924545&exception_mode=recommend&page=1
124.48이다.프갤의 안녕과 지식 전파,그리고 오개념 전파 방지 목적으로고닉 하나 팠다.거두절미하고 이게 지금 무슨 글이냐?아까 낮잠자서 잠이 안오길래잠도 안오는데MRCR 자료나 조사하면서이전 키배 내용들 다시 한번
gall.dcinside.com
거두절미하고 그냥 바로 시작한다.
# 목차
1. MRCR 고득점이 곧 모델의 성능을 판가름할까?
2. MRCR 지표로 보는 gpt와 opus
3. graphwalks long-context reasoning 벤치마크
4. 요약
# 1. MRCR 고득점이
곧 모델의 성능을 판가름할까?
당연히 아니다. ㅇㅇ...
(ref: openai blog post)
1편에서도 말했듯이 애초에 모델 성능은
고작 long-context 하나만으로 판단하기는 어렵다.
그러니까
Openai도 10개의 평가를 가중평균으로 쓰고 있지.
그런데 나는 진짜 의문인게
"자칭 전문가"라는 "그 녀석"이
왜 long-context 벤치마크를 고작 MRCR 하나만 들고오는지
이게 너무 의문이다.
왜냐하면 MRCR 벤치마크는 retrieval(검색) 평가에 더 가깝거든
이에 대해서는
MRCR에 대해 간단하게만 설명하면서 다시 주장을 이어가보겠음.
------------------------------------------------------------ 여기까지가 모델한테 보내는 query Assistant: aYooSG8CQg(2nd poem about tapirs) # model이 평가 받는 답변
(ref: openai mrcr huggingface)
위 예제에서 눈여겨 볼 부분은
"Write a poem about tapirs" << 이 부분이다.
똑같은 문장이 2번이나 나오지?
이게 MRCR에서 말하는 needle임.
참고로 벤치마크 명에 8-needle 이라는 단어가 있으면
똑같은 질문을 8번 작성했다는 거다.
needle 질문과 온갖 방해되는 잡소리(distractor)를 끼워넣어서
말 그대로 long-context로 만들고
마지막에 질문을 날려서
모델이 잘 맞추는지에 확인하는 평가임.
참고로 여기서 모델은 개행 하나라도 틀리면 바로 감점임.
말 그대로
똑 같 은 답변을 그대로 가져와야함.
간단한 예제를 만들어보자면
User: 523은 무슨 날인가요? # needle-1Model: 모르는데요.
User: 523은 무슨 날인가요? # needle-2
Model: 모르는데요.
User: 523은 무슨 날인가요? # needle-3
Model: 토요일이요.
User:523이 무슨 날인지에 대한 답변을 가져오는데 3번째 답변을 나온 것 그대로 재현해줘.
그리고 답을 적기 전에 aYooSG8CQg를 출력해서 네가 그 답을 낼 것임을 인증해.
참고로 aYooSG8CQg 이거는 prepend라는 개념인데
그냥 모델이 말 잘듣는지 아닌지 시험하는 테스트라고 보면 됨.
* 모델이 답변에 저거 정확히 안적으면 0점임.
Model: aYooSG8CQg일요절이요. # 일부분만 맞아서 낮은 점수.
Model: aYooSG8CQg토요일이요. # 100점
이제 뭔가 감이 오지?
MRCR은 long-context 벤치마크는 맞는데
그 성향이 상당히 retrieval(검색)에 더 가깝다는 의미야
물론 retrieval 능력 당연히 중요하지. ㅇㅇ
하지만 정상인의 사고로 생각하보자면
모델의 수 많은 성능 중
고작 retrieval 성능이 좋다는 이유 하나만으로
gpt가 opus보다 우월하다는 게
합당한 주장일까?
그럼 반대로 GPT 5.5 보다 MRCR 지표가 높은 모델이 있다면??
그 모델이 GPT 보다 더 좋을까??
# 2. MRCR 지표로 보는 gpt와 opus
이것도 1편에서 했던 얘기라서 길게는 안할게
OpenAI MRCRv2 지표 기준으로 Opus 4.7이 gpt 5.5 보다 낮은 것은 사실이야.
그런데 누군가는 자꾸 목숨 걸고 MRCR만 고집하면서
gpt가 opus 보다 더 우월하다고 주장하고 있는데
내가 정말 재밌는 것을 가져왔어
(ref: Opus 4.6 system card)
바로 Opus 4.6의 OpenAI MRCR v2 지표야.
여기서 Opus 4.6의 지표를 잘 기억해둬
Opus 4.6의 평가지표는 각각 93% / 76% 이었지?
하지만
GPT 5.5 각각 87% / 74%으로
Opus 4.6 보다 더 낮게 평가되어 있어.
(OpenAI 이새끼들 그런데 왜 opus 4.6은 칼럼 추가 안했냐 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ)
그리고 Deepmind MRCR도 Opus 4.6이 GPT 5.5보다 높다는 것은
1편에서 보여줬었지??
응, 맞아 Opus 4.6의 MRCR 벤치마크는 전부
gpt 5.5 보다 높게 나왔어 ㅋ...
누군가는 MRCR 벤치마크를 제시하면서
gpt 5.5가 더 우월하다고 주장하고 있지만
현실은 Opus 4.6이 gpt 5.5를 전부 따잇한 상황이야.
그런데 우리는 그렇다고 Opus 4.6을 더 좋은 모델이라고 말하지는 않잖아???
하지만 Opus 4.6 -> 4.7로 가면서
어딘가 하나가 빙구가 됐다는 것은 자명한 것 같아.
그럼 이에 대해서 앤트로픽의 입장은 어떠할까??
(ref: 클로드 코드 창시자 엔지니어의 X post)
대충 의역하자면 이래
1. scientific honesty 때문에 MRCR 그냥 놔두고 있긴 한데 우리 이거 뺄거임.
2. MRCR에서 사용하는 방법과 실제로 사람들이 long context를 사용하는 방법과 다름.
> 보통 우리는 클코&코덱스를 쓸 때 비슷한 맥락을 연속적으로 쓰지 완전 다른 대화를 끼워넣지는 않잖아?
(만약 이렇게 쓰고 있으면 잘 못쓰고 있는거야...)
3. 우리는 applied long-context가 더 중요하다고 생각함.
> MRCR task는 그냥 검색(retrieval)을 잘 하는 거지. 우리는 의미(reasoning)가 잘 전달되어야 한다고 생각함.
4. 의미가 잘 전달되는 long-context 벤치마크는 graphwalks임. 이제부터 우리 이거 쓸거임.
5. Mythos 부터는 MRCR 뺌 ㅅㄱ
아까 내가 MRCR 평가 방법에 대해 설명했었지?
너희들도 공감할 거야
MRCR 평가는
엄연히 재현성(reproduction) 능력을 보는 거지
이해했는지(reasoning)에 대한 능력을 보는 것은 아니란 소리야.
그러면 long-context reasoning 벤치마크는 뭐가 있을까??
# 3. graphwalks
long-context reasoning 벤치마크
gpt 5.5 벤치마크 다시 한번 볼까?
우리는 지금까지 떡밥인 MRCR 얘기만 해서
Graphwalks를 눈여겨보지 않았는데
이게 클로드 코드 창시자 엔지니어가 말하는
Applied long-context를 가늠할 수 있는 벤치마크야.
정말 간단하게 설명하자면
존~나게 긴 글을 읽고, 그 안에서 이곳 저곳을 BFS(너비 우선 탐색) 하면서 답을 [추론]하는 벤치마크야.
Multi-hop 추론 능력이라고 하는데
어려운 단어는 각자 애착 ai한테 물어보도록 하고
우리는 그냥 흥미 위주로만 읽는 거니까
쉽게만 이해하고 넘어가자.
클로드한테 만들어달라고 한 샘플 예제야
질문이 "노드 abcd에서 깊이 1의 BFS를 수행하라"
모델 정답이 [uvxs, efgh] 지?
그럼 엣지 목록에서 확인해볼까?
abcd -> uvwx
abcd -> efgh
graphwalks는 이렇게 엣지를 주고 질문을 줘서
모델이 직접 BFS로 추론을 해서 정답을 출력해야하는 그런 벤치마크야.
이거 보니까 뭔가
우리가 일하는 방법과 조금은 유사한 모습이 보이지 않아?
우리가 코드를 볼 때 이런식으로 하잖아
쭉 읽어내리다가
이 함수는 무슨 의미지? 하고 해당 함수 찾아보려고 다른 스크립트도 뜯어보고
다시 돌아와서 다시 읽어나가고.
graphwalks도 그런식으로 평가하는 지표야.
(물론 graphwalks는 계속해서 노드를 타고 나아가긴 하지만.)
어때? 단순히 수 많은 문장 속에서 필요한 문장을 찾아내는 MRCR 보다는
조금 더 우리가 하는 작업에 더 가깝게 느껴지는 벤치마크 같지 않아?
그럼 graphwalks 벤치마크는 누가 더 우수한지
다시 한번 확인해볼까?
* BFS는 위에서 설명한 평가고. parents가 붙은 평가는 BFS와 반대로 역추적 한다고 생각하면 됨. BFS 보다 난이도가 쉬움.
음.. 일단 256K는 Opus 4.7이 이겼네 ㅋ..
그리고 Opus 4.7 system card를 보면
BFS는 256K ~ 1M 58.6%
parents 256K ~ 1M 75.1%
각각 GPT(45.4% | 58.5%)를 압도하는 모습이지?
(이것도 아주 정확하게 가려면 말이 많은데 글 길면 재미 없으니까 그냥 넘어가자)
갤럼들 생각은 어때?
이쯤하면
opus vs gpt에 대한
long-context 떡밥은
어느정도 결론을 내릴 수 있을까??
# 4. 요약
1.
GPT 5.5: long context 중 특정 내용을 잘 찾아옴. (retrieval)
OPUS 4.7: 길고 복잡한 task를 잘 추론함. (reasoning)
2. MRCR 벤치는 Opus 4.6가 gpt 5.5를 따버렸음.
3. MRCR은 retrieval(검색) 능력일뿐.
실제 모델 사용 환경과는 많이 다르며, 실제 모델 사용 환경은 오히려 long-context reasoning을 확인해야 함.
4. long-context reasoning 평가지표인 graphwalks는 Opus 4.7이 gpt 5.5보다 높음.
# Reference
https://arxiv.org/pdf/2409.12640 (deepmind mrcr paper)
https://openai.com/index/introducing-gpt-5-5/ (openai official blog post)
https://huggingface.co/datasets/openai/mrcr (openai mrcr huggingface)
https://www-cdn.anthropic.com/14e4fb01875d2a69f646fa5e574dea2b1c0ff7b5.pdf (opus 4.6 system card)
https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf (opus 4.7 system card)
https://x.com/bcherny/status/2044826315849888207 (Claude code 엔지니어 X post)
중간에 좀 자를 껄 그랬나? 글이 좀 기네 어쨋든 긴 글 읽어줘서 고맙고 한 주간 일하다 온 프갤럼들 고생 많았다. 궁금한 내용 있거나 서베이가 궁금하다면 키워드 줘 한번 확인해볼게~
BFS보다 parents가 더 잘나오는게 신기하네 root까지 안 올라가서 찾아야될 탐색 깊이가 작아서 그런거임?
parents까지 설명하면 너무 길어질 거 같아서 안했는데 본문 엣지 목록을 예시로 설명하자면 parents의 query는 "uvwx를 가르키는 노드는 무엇인가?" 이정도가 됨. 그냥 어떤 노드가 가르키는 지만 확인하면 돼서 BFS보다 탐색 깊이가 적음.
@124.48_research ㅇㅎ 설명 ㄱㅅ 그래프 문제는 제대로 못풀거나 헛소리만 하길래 LLM의 한계점인가 생각하고 넘어갔는데 벤치마크로 보니까 확실히 아직 부족한 부분이 있단게 보이네
그 전문가는 기초부터 좀..ㅇㅅㅇ
@프갤로 기초도 어려워할듯 ㅋㅋ..
무슨 이야긴지는 못알아들었지만 암튼 개추
난 언제부턴가 코딩을 놨기 때문에 지금은 인공지능 모름
@카이런프랙터 그냥 gpt claude 갈드컵 열린거에 대해 조금 더 자세하게 조사한건데 이해 못해도 전혀 지장 없음 그냥 gpt claude 암거나 골라 써도 문제 없다 이거야~
해당 댓글은 삭제되었습니다.
https://artificialanalysis.ai/#price
https://artificialanalysis.ai/models/gpt-5-5
https://artificialanalysis.ai/models/claude-opus-4-7
opus
4.7이 코딱지만큼 더 쌉니다
일반적으로 더 누가 더 좋냐 이런 식으로 비교하듯 하는데 쓰는 사람이 적절하게 본인의 도메인과 문제 상황을 섞어 기술하면 뭐든 좋은 결과물을 뽑아낼수있지않겠습니까? 훠훠
정 답 킹직히 전 아무거나 써도 상관 없다는 마인드 입니다.
+ ref
graphwalks
openai huggingface
https://huggingface.co/datasets/openai/graphwalks/viewer/default/train
노력글엔 개추!