그럼 OpenAI MRCR은 뭐지?

에이도비(edit2mkv) 2026-05-18 21:35:00 추천 0

OpenAI가 커스텀을 했다는 거야 안했다는 거야??

24b0d121e09c28a8699fe8b115ef046b6c6e9631

허깅페이스 보니까 124.48말도 맞는데??

OpenAI/MRCR · Hugging Face의 데이터셋

OpenAI가 커스텀 한 거 맞음.

124.48_research(salty4732) 2026-05-18 21:35:00
124.48 말에 틀린 게 없는데 내가 확인해보니깐?
https://llm-stats.com/benchmarks/mrcr-v2-(8-needle)
이거
보니깐 진짜로 GPT가 졌음.
근데 ㅆㅇㅆ말에 의하면 다른 장기 벤치들에선 GPT가 정기적으로 이기고 있다는 거 아니야?

에이도비(edit2mkv) 2026-05-18 21:37:00
답글
가져온게 없는데?ㅇㅅㅇ

프갤로(gotopg) 2026-05-18 21:38:00
답글
내가 확인한 벤치는 Deepmind MRCR v2 OpenAI MRCR v2 AA-LCR 인데 Deepmind MRCR v2는 self-reported에서 Opus 4.6이 gpt 5.5를 이겼고 OpenAI MRCR v2는 gpt 5.5가 이겼고.

124.48_research(salty4732) 2026-05-18 21:39:00
답글
AA-LCR은 gpt 5.5가 opus 4.7보다 0.4% 높음. 그런데 음... 왜 Long-context에 목매는지 모르겠음...

124.48_research(salty4732) 2026-05-18 21:39:00
답글
내가 ㅆㅇㅆ를 차단해서 글이 안보이긴 하는데 long-context에 목맬 일이 전혀 아닌데 왜 그럴까...?

124.48_research(salty4732) 2026-05-18 21:40:00
답글
@124.48_research 롱컨텍스트 나는 중요하게 생각하긴 해. 1M쓰면 200k쓰는 거보다 성능 저하도 느리고 더 커지면 RAG한계 극복도 될 거고 글고 처음 논쟁 시발점도 롱컨텍스트에서 GPT가 이겼으니 GPT가 더 낫고 클로드는 쓰레기다였으니까 그런 점도 있음

에이도비(edit2mkv) 2026-05-18 21:42:00
답글
@124.48_research 차단 얘기하니까 프갤 누구누구 차단했으니 댓글달지 말라면서 댓글달면 무슨 내용인지 알고 그걸로 글 도배하던 사람이 생각나는군

익명(211.234) 2026-05-18 21:42:00
답글
@에이도비 다음 글에 쓸 예정이긴 한데 간략하게만 말하자면 openai MRCR은 retrieval을 정확하게 따지고 deepmind MRCR은 reasoning을 허용함. openai MRCR이 좀 야박한게 개행 하나만 틀려도 바로 점수 까버림.

124.48_research(salty4732) 2026-05-18 21:44:00
답글
@124.48_research 오... 그런 차이도 있구나. 내 체감이랑도 딱 맞네 ㅋㅋ

에이도비(edit2mkv) 2026-05-18 21:44:00
답글
@에이도비 심지어 openai MRCR은 특정 조건을 달성하지 못하면 그냥 점수 0점 처리까지 함 << 그런데 이게 또 나름 합리적인 내용이긴 해. 그래서 long-context를 중요하게 여긴다 = 나는 모델이 과거 내가 했던 말을 토씨하나 틀리지 않고 그대로 가져왔으면 좋겠다 이런 의미라면 openai MRCR을 지표로 참고하는 게 더 좋아

124.48_research(salty4732) 2026-05-18 21:45:00
답글
@에이도비 그런데 Deepmind MRCR의 scoring은 의미유사도로 가져가거든. 그래서 의미만 맞으면 어쨋든 ㅇㅋ가 되어버림. 그리고 의미 유사도 검사에 대해서는 opus 4.6이 gpt 5.5보다 높은 score를 받았지

124.48_research(salty4732) 2026-05-18 21:47:00
답글

프갤로(gotopg) 2026-05-18 21:48:00
답글

124.48_research(salty4732) 2026-05-18 21:49:00
데이터셋 다른거 같은데

익명(211.234) 2026-05-18 21:38:00
정확하게 말해서 벤치마크는 회사들마다 공개함. 그리고 지들 벤치들 다 돌려먹는데 딥마인드가 내놓은 벤치를 개량한게 MRCR v2고 경쟁사 벤치마크에서도 이정도 성능이 나왔다. 이래서 클로드가 한때 빨렸던거임. 그리고 나서 지피티가 즈그들이 져서 자존심상해가지고 올린거고

ㅆㅇㅆ(124.216) 2026-05-18 21:38:00
답글
애초에 벤치마크는 회사들 다 공개하고 즈그들 벤치끼리 비교하고 한동안 장기 문맥 벤치에서 가장 유명했던게 MRCR인거

ㅆㅇㅆ(124.216) 2026-05-18 21:39:00
답글
정확하게 말하는 부분이 없는데

익명(211.234) 2026-05-18 21:40:00
답글
@ㅆㅇㅆ(124.216) 먼 소린진 알겠는데 GPT가 더 낫다는 근거는 애매해지는 거잖아? 물론 난 경험상 GPT가 더 낫다고 생각하긴 하는데 지금은 개인의 경험 갖고 얘기할 단계는 아니니깐

에이도비(edit2mkv) 2026-05-18 21:43:00
답글
@에이도비 ㄴㄴ 아님 애초에 나는 처음 글 쓸때부터 장기문맥 실효컨텍스트부분에서 코덱스가 더 낫다라고 했었음

ㅆㅇㅆ(124.216) 2026-05-18 21:44:00
답글
@에이도비 근데 저 병신이 시비 걸고 싶어서 시비건거지 ㅋㅋ

ㅆㅇㅆ(124.216) 2026-05-18 21:45:00
답글
@ㅆㅇㅆ(124.216) 처음 글쓸때 실효란 얘기 안했지

익명(211.234) 2026-05-18 21:45:00
내가 좀 본의아니게 댓글에 도배를 하게 됐는데 그냥 약식으로 요약하자면 long-context에 대해서 gpt > 토씨하나 틀리지 않고 잘 가져옴. (그런데 대신 자기들이 만든 데이터셋임.) claude > 의미는 문제 없이 잘 가져옴. 이런 상황이라 마냥 우열을 가리기는 조금 그래.

124.48_research(salty4732) 2026-05-18 21:48:00
답글
게다가 모델의 성능을 고작 long-context 하나로만 따지는 것도 좀... 말이 안되기도 하고 ㅋㅋ... 그래서 그냥 "아하 그렇구나!" 정도로만 보고 넘어가는게 적당해 굳이 long-context로 갈드컵을 열기 보다는..

124.48_research(salty4732) 2026-05-18 21:49:00

그럼 OpenAI MRCR은 뭐지?

댓글 24

다른 게시글

일본에서 스피키 인기가 제법 있나보넹

요즘은 설치방법도 힙하네ㅇㅅㅇ

그건 됐고 내 20% 완성된 게임 에디터를 봐주길 바란다

124.48아 그리고 너도 연구한다고 깝치면 출처에 블로그 박지말고

그냥 원본소스를 가져옴 클로드 시스템 스펙에도 지들이 쓴 값임

뉴프로 아이콘 변경안내

124.48아 무식한건 좋아 잘알지도 못하는것도 괜찮다. 근데

124.48은 점마는 왜 모르는데 깝칠까

요즘 코딩 클로드가 낳음? 커서가 낳음?

Opus 4.7 vs GPT 5.5 - 1편 (Long-context)