MMLU-Pro는 대규모 언어 모델의 성능을 더 엄격하게 평가하기 위한 강력하고 도전적인 데이터셋입니다. 12,000개의 복잡한 질문을 포함하고 있습니다.
1. MMLU-Pro의 새로운 점:
- 기존 MMLU는 4개의 선택지만 있었으나, MMLU-Pro는 10개의 선택지를 제공합니다. 이는 평가를 더 현실적이고 도전적으로 만듭니다.
- 기존 MMLU는 주로 지식 중심의 질문이었지만, MMLU-Pro는 문제의 난이도를 높이고 추론 중심의 문제를 추가했습니다.
- 선택지 증가로 모델 성능이 더 안정적이 되었으며, 예를 들어, Llama-2-7B의 성능 변동이 MMLU-Pro에서는 1% 이내인 반면, 기존 MMLU에서는 4-5%까지 변동할 수 있습니다.
https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
TIGER-Lab/MMLU-Pro · Datasets at Hugging Face
TIGER-Lab/MMLU-Pro · Datasets at Hugging Face
huggingface.co
오푸스 어디감..?
막줄이 크네
오푸스 어디가고 왜 소넷이 저깄음?
오푸스가 1등인가?
새로운 골대인가
오퍼스 어디감?
오푸스를 빼버렸네
오푸스는 비싸서 못했나
체감 성능은 라마3가 소네트보다 나은 거 같은데....
오푸스가 그럼 4o랑 비슷하려나 - dc App
오푸스가 4o 따2잇했나 보네ㅋㅋ 출전정지당한거보면ㅋ