머숨 미러

걍 여기 애들 머저리 같은거야 원투데이도 아니다만은

애초에 벤치라는게 각 회사마다 공개함

MRCR v1은 딥마인드가 만든 벤치임

MRCR v2가 open ai가 딥마인드 벤치 개량한거

보통 시스템 카드에 자사 벤치만 넣으면 자사 모델에 유리하니까 타사 벤치를 비교군으로 가져옴

앤트로픽도 4.7 발표에 93-task coding 벤치 발표함. 근데 자사 벤치마크만 쓰면 당연히 한 소리 들으니까 타사 벤치도 씀

보통 딥마인드쪽이 AI 평가를 하는 벤치마크 만들면 업계서 쓰고 자사 벤치 쓰고, 타사 벤치로 비교함

참고로 오픈 ai쪽에서 벤치 공개할때 GDPval 같은 것도 자기가 쳐발렸는데 그냥 올린거 있고

애초에 벤치 논쟁에서 누가 만들었다 이게 중요한게 아니고, 누가 어떻게 선언했고 언제 썼었느냐 이게 중요함

싸움난것도 나는 클로드가 유독 씨발 긴컨텍스트에서 에러가 나서 코덱스가 더 잘짜는거 같다고 유효 컨텍스트가 지피티가 더 길다는 맥락에서 이야기한거

근데 걍 시비걸려고 해서 싸움걸린것뿐이지

여기 사람들 이미 다 아는 내용인데 너 혼자 이제 깨달았구나

익명(211.234) 2026-05-18 21:45:00

딥시크랑 kimi minimax qwen 얘네들중에 머가 제일 성능이랑 호출비용 잘잡아줌?

익명(118.235) 2026-05-18 22:34:00

답글

LLM LeaderboardThis Weekweek1.Favicon for tencentHy3 previewbytencent2.66T tokens210%2.Favicon for deepseekDeepSeek V4 Flashbydeepseek2.06T tokens86%3.Favicon for anthropicClaude Sonnet 4.6byanthropic1.55T tokens6%4.Favicon for anthropicClaude Opus 4.7byanthropic1.54T tokens24%5.Favicon for googleGemini 3 Flash Previewbygoogle1.15T tokens7%6.Favicon for moon

익명(118.235) 2026-05-18 22:34:00

답글

오픈라우터라는 사이트 랭킹보니 이렇게 나오던데

익명(118.235) 2026-05-18 22:35:00

답글

여기랭킹이 실제 ㅅㅌㅊ인지 반영하고있는건지 그냥 인기놀음인지 모르겠음

익명(118.235) 2026-05-18 22:35:00

답글

@ㅇㅇ(118.235) 보통 이런건 중국 위챗 커뮤니티가 제일 좋던데, 오픈 라우터는 랭킹 놀이임 그니까 얼마나 트래픽 호출했나. V4는 플래쉬 가격이 싸지

ㅆㅇㅆ(124.216) 2026-05-18 22:40:00

답글

@ㅇㅇ(118.235) Hy3은 뭐냐 첨 듣는데 - dc App

에이도비(edit2mkv) 2026-05-18 22:41:00

답글

@에이도비 탠샌트껀데 왠지모르게 요즘 상시 1위 먹고있더라 저게 가성비가좋은건가?

익명(118.235) 2026-05-18 22:43:00

답글

@ㅇㅇ(118.235) cursor에는 왜 안올라왔지? 한국어 버전이 없어서 그런가? 궁금하네 - dc App

에이도비(edit2mkv) 2026-05-18 22:44:00

답글

@ㅇㅇ(118.235) 지금 무료라서 그런거같은데

ㅆㅇㅆ(124.216) 2026-05-18 22:47:00

걍 AI 업계인도 아닌거같은데 124.48 말하는거보니까

댓글 10

걍 AI 업계인도 아닌거같은데 124.48 말하는거보니까

댓글 10

다른 게시글

인지과학조져라

그럼 OpenAI MRCR은 뭐지?

일본에서 스피키 인기가 제법 있나보넹

요즘은 설치방법도 힙하네ㅇㅅㅇ

그건 됐고 내 20% 완성된 게임 에디터를 봐주길 바란다

124.48아 그리고 너도 연구한다고 깝치면 출처에 블로그 박지말고

그냥 원본소스를 가져옴 클로드 시스템 스펙에도 지들이 쓴 값임

뉴프로 아이콘 변경안내

124.48아 무식한건 좋아 잘알지도 못하는것도 괜찮다. 근데

124.48은 점마는 왜 모르는데 깝칠까