걍 여기 애들 머저리 같은거야 원투데이도 아니다만은


애초에 벤치라는게 각 회사마다 공개함


MRCR v1은 딥마인드가 만든 벤치임


MRCR v2가 open ai가 딥마인드 벤치 개량한거


보통 시스템 카드에 자사 벤치만 넣으면 자사 모델에 유리하니까 타사 벤치를 비교군으로 가져옴


앤트로픽도 4.7 발표에 93-task coding 벤치 발표함. 근데 자사 벤치마크만 쓰면 당연히 한 소리 들으니까 타사 벤치도 씀


보통 딥마인드쪽이 AI 평가를 하는 벤치마크 만들면 업계서 쓰고 자사 벤치 쓰고, 타사 벤치로 비교함


참고로 오픈 ai쪽에서 벤치 공개할때 GDPval 같은 것도 자기가 쳐발렸는데 그냥 올린거 있고


애초에 벤치 논쟁에서 누가 만들었다 이게 중요한게 아니고, 누가 어떻게 선언했고 언제 썼었느냐 이게 중요함


싸움난것도 나는 클로드가 유독 씨발 긴컨텍스트에서 에러가 나서 코덱스가 더 잘짜는거 같다고 유효 컨텍스트가 지피티가 더 길다는 맥락에서 이야기한거


근데 걍 시비걸려고 해서 싸움걸린것뿐이지