ML만 해보다가 이번학기에 처음으로 자연어처리 수업 듣고있는 학부생임

8B 모델을(FP16) LoRA 써서 Fine Tunning 하는데 vRAM을 뭔 40기가 넘게 먹는데 정상임?
GPT말로는 원래 모델의 파라미터는 16기가 정도 먹는게 맞고 액티베이션? 이 20~30기가일거라는데
도무지 이해가 안 가서.. 허깅페이스에는 FP16 8B + LoRA면 문제없이 파인튜닝 가능하다고 하는데 뭐가 맞는건지 모르겠다
내가 아직 CUDA를 잘 몰라서 이런건지 답답하네.;;
도움좀 주세용