제대로 대가리 쓰는 추론 느낌 생기는게 70b 모델부터고

이걸 4bit로 양자화 시킨게 32GB임

가중치를 아예 -1,0,1 삼진수로만 표현하는 기술도 있다는데 이거 되도 2bit 16GB임

삼진수가 인간 뉴런 작동방식 근간이라 더이상 줄일수도 없음


제대로된 온디바이스ai가 나오기 시작하면 램 수요가 한번 더 폭발할 예정이다