티처 모델보다 크기가 35%작은 스튜던트 모델에 지식 정제하고, 8비트 양자화하는데 성능이 1~2% 더 올라갔다는거 보고 아무리 생각해봐도 쉽게 이해되지 않는데 왜그런거임?