챗봇아레나 점수만 보면 상당히 우수하지만
다른 평가 점수들은
MMLU 51.3점, MATH 15점, Humaneval 17.7점 등
추론, 수학, 코드에서는 아예 못 써먹을 수준
온디바이스에서 정말 가벼운 작업할 때나 쓰일듯
챗봇아레나 점수로만 홍보한다고 욕 살짝 먹는 중
챗봇아레나 점수만 보면 상당히 우수하지만
다른 평가 점수들은
MMLU 51.3점, MATH 15점, Humaneval 17.7점 등
추론, 수학, 코드에서는 아예 못 써먹을 수준
온디바이스에서 정말 가벼운 작업할 때나 쓰일듯
챗봇아레나 점수로만 홍보한다고 욕 살짝 먹는 중
가벼운 모델이니까 가벼운 작업에 적합할거고 이걸 챗봇아레나가 꽤 잘 보여주는듯?