머숨 미러

0490f719b0816df220afd8b236ef203e4dd6966436f752

MMLU-Pro는 대규모 언어 모델의 성능을 더 엄격하게 평가하기 위한 강력하고 도전적인 데이터셋입니다. 12,000개의 복잡한 질문을 포함하고 있습니다.

1. MMLU-Pro의 새로운 점:
- 기존 MMLU는 4개의 선택지만 있었으나, MMLU-Pro는 10개의 선택지를 제공합니다. 이는 평가를 더 현실적이고 도전적으로 만듭니다.
- 기존 MMLU는 주로 지식 중심의 질문이었지만, MMLU-Pro는 문제의 난이도를 높이고 추론 중심의 문제를 추가했습니다.
- 선택지 증가로 모델 성능이 더 안정적이 되었으며, 예를 들어, Llama-2-7B의 성능 변동이 MMLU-Pro에서는 1% 이내인 반면, 기존 MMLU에서는 4-5%까지 변동할 수 있습니다.

https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro

TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

huggingface.co

오푸스 어디감..?

익명(121.132) 2024-05-15 14:00:00

막줄이 크네

익명(115.139) 2024-05-15 14:00:00

오푸스 어디가고 왜 소넷이 저깄음?

익명(121.144) 2024-05-15 14:00:00

오푸스가 1등인가?

익명(59.26) 2024-05-15 14:01:00

새로운 골대인가

익명(59.22) 2024-05-15 14:02:00

오퍼스 어디감?

익명(shore1232) 2024-05-15 14:02:00

오푸스를 빼버렸네

익명(218.147) 2024-05-15 14:02:00

MoonChild(aowlr2001) 2024-05-15 14:04:00

오푸스는 비싸서 못했나

익명(ek4li3ixxkv2) 2024-05-15 14:04:00

도로시냥(slzpdnjsxnf) 2024-05-15 14:05:00

체감 성능은 라마3가 소네트보다 나은 거 같은데....

익명(210.182) 2024-05-15 14:11:00

오푸스가 그럼 4o랑 비슷하려나 - dc App

익명(awful1887) 2024-05-15 14:16:00

오푸스가 4o 따2잇했나 보네ㅋㅋ 출전정지당한거보면ㅋ

익명(61.254) 2024-05-15 16:04:00

답글

디시콘발사대(fcbjsjmu1t9f) 2024-05-15 17:11:00

[📪정보] 새로운 언어모델 벤치마크 MMLU-Pro

댓글 14

[📪정보] 새로운 언어모델 벤치마크 MMLU-Pro

댓글 14

다른 게시글

AGI에 대한 긍정이랑 특이점 급속발전에 대한 부정이 양립 할 수 있나

점진적이라고 말할 수 밖에 없는게

어차피 오픈 AI가 AGI 못 만든다면

근데 사실이든 아니든 점진적이라고 하는게 맞지 않음?

알트만 인터뷰 한문장으로 요약하면

의외로 신성하고 숭고하며 가치있는 행위.jpg

니들 생에 AGI는 올것이다

일리야 4지선다중에 뭐 선택할거 같냐?

인터뷰 봤는데 점진적 변화를 강조하네

알트만은 asi를 2030안에 개발하겠다고 한 사람임