제대로 대가리 쓰는 추론 느낌 생기는게 70b 모델부터고이걸 4bit로 양자화 시킨게 32GB임가중치를 아예 -1,0,1 삼진수로만 표현하는 기술도 있다는데 이거 되도 2bit 16GB임삼진수가 인간 뉴런 작동방식 근간이라 더이상 줄일수도 없음제대로된 온디바이스ai가 나오기 시작하면 램 수요가 한번 더 폭발할 예정이다
댓글 0