무려 'NIPS'에 논문 낸 [틀]이고 지금은 그냥 제너릭한 SWE함
[틀]이라 "LLM=파라미터"가 ㅈㄴ 많은 Transformer 정도로 생각하는 점 양해부탁함
유독 한국에서 그나마 없는 투자금액으로 최대한 LLM따라가려고 SLM사업이 많이 있는거 같은데
영어로만 검색해도 SLM 검색결과가 현저하게 줄어서 그냥 사업용으로 만든 K-LLM정도의 용어인거 같아서 물어봄
심지어 LLM/SLM을 나누는 정확한 parameter개수 threshold에 대한 consensus도 없는거 같았음
또 회사기밀로 온라인 LLM못쓰는경우 집에서 남는 글카로 딥시크, llama, qwen 같은거 1b-14b까지 로컬서버 열어서 돌려본적 있음
근데 돌려봤더니 1b-3b는 그냥 아예 저능아 수준이고 7b정도쯤 되야 그나마 GPT-3 정도로 쓸만하다고 느꼈는데
이게 딱 지금 밀어주는 SLM인거야? 심지어 애플 인텔리전스 이런거가 대놓고 온디바이스 SLM이잖아?
그나마 distillation해서 성능이 적은 파라미터에서 이정도인거지 한국식 SLM도 그냥 다른 모델에서 distillation하는거 빼고 방법있음?
뭘해도 그냥 마이너 카피고 칩까지 있는 애플한테도 결국 밀리는 아무 의미 없는 사업같아서 물어봄
이번 cvpr에도 LLM, LVLM 경량화로 많이 붙음
그냥 진짜 궁금해서 그런데 cvpr에서 llm 붙여줌? 난 주로 디퓨전 관련만 봐서 몰라서 물보는거
정말 많이 붙여주는데... paper copilot들어가서 accepted paper list ctrl f language model한번 해봐
번외로, slm이란 단어를 학계에서 잘 쓰진 않는거같음
비싸고 느리고 장비많이필요하면 현장에서 어케씀
그냥 해당 모델이 아니라 파인튜닝해서 써야지
말한대로 증류모델 아니면 성능 안나오니 의미없지. 근데 반대로 초거대 파운데이션 모델 그대로 쓰는건 빅테크도 감당못하고 있잖아
결국 베이스라인을 sLM으로 시작하는건 의미없는 것 같고 파운데이션 모델도 확보하면서 가는게 맞는듯
gpt만 봐도 o1보다 o3-mini-high가 비용은 더 저렴한데 코딩은 더 잘할때가 많은 걸 보면 증류 기반 경량화는 확실히 의미있어보임
역시 코딩은 o3-mini-high 메모메모
획기적인 아키텍처가 나타나지 않는 이상 의미 좆도 없음 그냥 빅테크가 만든 거 경량화 하는게 더 빠름