무려 'NIPS'에 논문 낸 [틀]이고 지금은 그냥 제너릭한 SWE함

[틀]이라 "LLM=파라미터"가 ㅈㄴ 많은 Transformer 정도로 생각하는 점 양해부탁함


유독 한국에서 그나마 없는 투자금액으로 최대한 LLM따라가려고 SLM사업이 많이 있는거 같은데

영어로만 검색해도 SLM 검색결과가 현저하게 줄어서 그냥 사업용으로 만든 K-LLM정도의 용어인거 같아서 물어봄

심지어 LLM/SLM을 나누는 정확한 parameter개수 threshold에 대한 consensus도 없는거 같았음


또 회사기밀로 온라인 LLM못쓰는경우 집에서 남는 글카로 딥시크, llama, qwen 같은거 1b-14b까지 로컬서버 열어서 돌려본적 있음


근데 돌려봤더니 1b-3b는 그냥 아예 저능아 수준이고 7b정도쯤 되야 그나마 GPT-3 정도로 쓸만하다고 느꼈는데

이게 딱 지금 밀어주는 SLM인거야? 심지어 애플 인텔리전스 이런거가 대놓고 온디바이스 SLM이잖아?


그나마 distillation해서 성능이 적은 파라미터에서 이정도인거지 한국식 SLM도 그냥 다른 모델에서 distillation하는거 빼고 방법있음?

뭘해도 그냥 마이너 카피고 칩까지 있는 애플한테도 결국 밀리는 아무 의미 없는 사업같아서 물어봄