걍 여기 애들 머저리 같은거야 원투데이도 아니다만은
애초에 벤치라는게 각 회사마다 공개함
MRCR v1은 딥마인드가 만든 벤치임
MRCR v2가 open ai가 딥마인드 벤치 개량한거
보통 시스템 카드에 자사 벤치만 넣으면 자사 모델에 유리하니까 타사 벤치를 비교군으로 가져옴
앤트로픽도 4.7 발표에 93-task coding 벤치 발표함. 근데 자사 벤치마크만 쓰면 당연히 한 소리 들으니까 타사 벤치도 씀
보통 딥마인드쪽이 AI 평가를 하는 벤치마크 만들면 업계서 쓰고 자사 벤치 쓰고, 타사 벤치로 비교함
참고로 오픈 ai쪽에서 벤치 공개할때 GDPval 같은 것도 자기가 쳐발렸는데 그냥 올린거 있고
애초에 벤치 논쟁에서 누가 만들었다 이게 중요한게 아니고, 누가 어떻게 선언했고 언제 썼었느냐 이게 중요함
싸움난것도 나는 클로드가 유독 씨발 긴컨텍스트에서 에러가 나서 코덱스가 더 잘짜는거 같다고 유효 컨텍스트가 지피티가 더 길다는 맥락에서 이야기한거
근데 걍 시비걸려고 해서 싸움걸린것뿐이지
여기 사람들 이미 다 아는 내용인데 너 혼자 이제 깨달았구나
딥시크랑 kimi minimax qwen 얘네들중에 머가 제일 성능이랑 호출비용 잘잡아줌?
LLM LeaderboardThis Weekweek1.Favicon for tencentHy3 previewbytencent2.66T tokens210%2.Favicon for deepseekDeepSeek V4 Flashbydeepseek2.06T tokens86%3.Favicon for anthropicClaude Sonnet 4.6byanthropic1.55T tokens6%4.Favicon for anthropicClaude Opus 4.7byanthropic1.54T tokens24%5.Favicon for googleGemini 3 Flash Previewbygoogle1.15T tokens7%6.Favicon for moon
오픈라우터라는 사이트 랭킹보니 이렇게 나오던데
여기랭킹이 실제 ㅅㅌㅊ인지 반영하고있는건지 그냥 인기놀음인지 모르겠음
@ㅇㅇ(118.235) 보통 이런건 중국 위챗 커뮤니티가 제일 좋던데, 오픈 라우터는 랭킹 놀이임 그니까 얼마나 트래픽 호출했나. V4는 플래쉬 가격이 싸지
@ㅇㅇ(118.235) Hy3은 뭐냐 첨 듣는데 - dc App
@에이도비 탠샌트껀데 왠지모르게 요즘 상시 1위 먹고있더라 저게 가성비가좋은건가?
@ㅇㅇ(118.235) cursor에는 왜 안올라왔지? 한국어 버전이 없어서 그런가? 궁금하네 - dc App
@ㅇㅇ(118.235) 지금 무료라서 그런거같은데