0490f719b0816df220afd8b236ef203e4dd6966436f752


MMLU-Pro는 대규모 언어 모델의 성능을 더 엄격하게 평가하기 위한 강력하고 도전적인 데이터셋입니다. 12,000개의 복잡한 질문을 포함하고 있습니다.

1. MMLU-Pro의 새로운 점:
- 기존 MMLU는 4개의 선택지만 있었으나, MMLU-Pro는 10개의 선택지를 제공합니다. 이는 평가를 더 현실적이고 도전적으로 만듭니다.
- 기존 MMLU는 주로 지식 중심의 질문이었지만, MMLU-Pro는 문제의 난이도를 높이고 추론 중심의 문제를 추가했습니다.
- 선택지 증가로 모델 성능이 더 안정적이 되었으며, 예를 들어, Llama-2-7B의 성능 변동이 MMLU-Pro에서는 1% 이내인 반면, 기존 MMLU에서는 4-5%까지 변동할 수 있습니다.

https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro

TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

huggingface.co