그럼 OpenAI MRCR은 뭐지?
에이도비(edit2mkv)
2026-05-18 21:35:00
추천 0
댓글 24
다른 게시글
-
일본에서 스피키 인기가 제법 있나보넹
[3]♨2.97™(roidz) | 05.18추천 0 -
요즘은 설치방법도 힙하네ㅇㅅㅇ
[6]프갤로(gotopg) | 05.18추천 0 -
그건 됐고 내 20% 완성된 게임 에디터를 봐주길 바란다
[17]ㅆㅇㅆ(124.216) | 05.18추천 5 -
124.48아 그리고 너도 연구한다고 깝치면 출처에 블로그 박지말고
[1]ㅆㅇㅆ(124.216) | 05.18추천 1 -
그냥 원본소스를 가져옴 클로드 시스템 스펙에도 지들이 쓴 값임
ㅆㅇㅆ(124.216) | 05.18추천 2 -
뉴프로 아이콘 변경안내
[6]뉴프로(compete9621) | 05.18추천 0 -
124.48아 무식한건 좋아 잘알지도 못하는것도 괜찮다. 근데
ㅆㅇㅆ(124.216) | 05.18추천 6 -
124.48은 점마는 왜 모르는데 깝칠까
[11]ㅆㅇㅆ(124.216) | 05.18추천 9 -
요즘 코딩 클로드가 낳음? 커서가 낳음?
[1]익명(221.148) | 05.18추천 0 -
Opus 4.7 vs GPT 5.5 - 1편 (Long-context)
[26]124.48_res..(salty4732) | 05.18추천 12
OpenAI가 커스텀 한 거 맞음.
124.48 말에 틀린 게 없는데 내가 확인해보니깐?
https://llm-stats.com/benchmarks/mrcr-v2-(8-needle)
이거
보니깐 진짜로 GPT가 졌음.
근데 ㅆㅇㅆ말에 의하면 다른 장기 벤치들에선 GPT가 정기적으로 이기고 있다는 거 아니야?
가져온게 없는데?ㅇㅅㅇ
내가 확인한 벤치는 Deepmind MRCR v2 OpenAI MRCR v2 AA-LCR 인데 Deepmind MRCR v2는 self-reported에서 Opus 4.6이 gpt 5.5를 이겼고 OpenAI MRCR v2는 gpt 5.5가 이겼고.
AA-LCR은 gpt 5.5가 opus 4.7보다 0.4% 높음. 그런데 음... 왜 Long-context에 목매는지 모르겠음...
내가 ㅆㅇㅆ를 차단해서 글이 안보이긴 하는데 long-context에 목맬 일이 전혀 아닌데 왜 그럴까...?
@124.48_research 롱컨텍스트 나는 중요하게 생각하긴 해. 1M쓰면 200k쓰는 거보다 성능 저하도 느리고 더 커지면 RAG한계 극복도 될 거고 글고 처음 논쟁 시발점도 롱컨텍스트에서 GPT가 이겼으니 GPT가 더 낫고 클로드는 쓰레기다였으니까 그런 점도 있음
@124.48_research 차단 얘기하니까 프갤 누구누구 차단했으니 댓글달지 말라면서 댓글달면 무슨 내용인지 알고 그걸로 글 도배하던 사람이 생각나는군
@에이도비 다음 글에 쓸 예정이긴 한데 간략하게만 말하자면 openai MRCR은 retrieval을 정확하게 따지고 deepmind MRCR은 reasoning을 허용함. openai MRCR이 좀 야박한게 개행 하나만 틀려도 바로 점수 까버림.
@124.48_research 오... 그런 차이도 있구나. 내 체감이랑도 딱 맞네 ㅋㅋ
@에이도비 심지어 openai MRCR은 특정 조건을 달성하지 못하면 그냥 점수 0점 처리까지 함 << 그런데 이게 또 나름 합리적인 내용이긴 해. 그래서 long-context를 중요하게 여긴다 = 나는 모델이 과거 내가 했던 말을 토씨하나 틀리지 않고 그대로 가져왔으면 좋겠다 이런 의미라면 openai MRCR을 지표로 참고하는 게 더 좋아
@에이도비 그런데 Deepmind MRCR의 scoring은 의미유사도로 가져가거든. 그래서 의미만 맞으면 어쨋든 ㅇㅋ가 되어버림. 그리고 의미 유사도 검사에 대해서는 opus 4.6이 gpt 5.5보다 높은 score를 받았지
데이터셋 다른거 같은데
정확하게 말해서 벤치마크는 회사들마다 공개함. 그리고 지들 벤치들 다 돌려먹는데 딥마인드가 내놓은 벤치를 개량한게 MRCR v2고 경쟁사 벤치마크에서도 이정도 성능이 나왔다. 이래서 클로드가 한때 빨렸던거임. 그리고 나서 지피티가 즈그들이 져서 자존심상해가지고 올린거고
애초에 벤치마크는 회사들 다 공개하고 즈그들 벤치끼리 비교하고 한동안 장기 문맥 벤치에서 가장 유명했던게 MRCR인거
정확하게 말하는 부분이 없는데
@ㅆㅇㅆ(124.216) 먼 소린진 알겠는데 GPT가 더 낫다는 근거는 애매해지는 거잖아? 물론 난 경험상 GPT가 더 낫다고 생각하긴 하는데 지금은 개인의 경험 갖고 얘기할 단계는 아니니깐
@에이도비 ㄴㄴ 아님 애초에 나는 처음 글 쓸때부터 장기문맥 실효컨텍스트부분에서 코덱스가 더 낫다라고 했었음
@에이도비 근데 저 병신이 시비 걸고 싶어서 시비건거지 ㅋㅋ
@ㅆㅇㅆ(124.216) 처음 글쓸때 실효란 얘기 안했지
내가 좀 본의아니게 댓글에 도배를 하게 됐는데 그냥 약식으로 요약하자면 long-context에 대해서 gpt > 토씨하나 틀리지 않고 잘 가져옴. (그런데 대신 자기들이 만든 데이터셋임.) claude > 의미는 문제 없이 잘 가져옴. 이런 상황이라 마냥 우열을 가리기는 조금 그래.
게다가 모델의 성능을 고작 long-context 하나로만 따지는 것도 좀... 말이 안되기도 하고 ㅋㅋ... 그래서 그냥 "아하 그렇구나!" 정도로만 보고 넘어가는게 적당해 굳이 long-context로 갈드컵을 열기 보다는..