7cec8168f5dc3f8650bbd58b36847d649ce2

챗봇아레나 점수만 보면 상당히 우수하지만

다른 평가 점수들은


MMLU 51.3점, MATH 15점, Humaneval 17.7점 등


추론, 수학, 코드에서는 아예 못 써먹을 수준


온디바이스에서 정말 가벼운 작업할 때나 쓰일듯


챗봇아레나 점수로만 홍보한다고 욕 살짝 먹는 중