숨터

무려 'NIPS'에 논문 낸 [틀]이고 지금은 그냥 제너릭한 SWE함

[틀]이라 "LLM=파라미터"가 ㅈㄴ 많은 Transformer 정도로 생각하는 점 양해부탁함

유독 한국에서 그나마 없는 투자금액으로 최대한 LLM따라가려고 SLM사업이 많이 있는거 같은데

영어로만 검색해도 SLM 검색결과가 현저하게 줄어서 그냥 사업용으로 만든 K-LLM정도의 용어인거 같아서 물어봄

심지어 LLM/SLM을 나누는 정확한 parameter개수 threshold에 대한 consensus도 없는거 같았음

또 회사기밀로 온라인 LLM못쓰는경우 집에서 남는 글카로 딥시크, llama, qwen 같은거 1b-14b까지 로컬서버 열어서 돌려본적 있음

근데 돌려봤더니 1b-3b는 그냥 아예 저능아 수준이고 7b정도쯤 되야 그나마 GPT-3 정도로 쓸만하다고 느꼈는데

이게 딱 지금 밀어주는 SLM인거야? 심지어 애플 인텔리전스 이런거가 대놓고 온디바이스 SLM이잖아?

그나마 distillation해서 성능이 적은 파라미터에서 이정도인거지 한국식 SLM도 그냥 다른 모델에서 distillation하는거 빼고 방법있음?

뭘해도 그냥 마이너 카피고 칩까지 있는 애플한테도 결국 밀리는 아무 의미 없는 사업같아서 물어봄

이번 cvpr에도 LLM, LVLM 경량화로 많이 붙음

익명(fast2747) 2025-04-15 15:26

답글

그냥 진짜 궁금해서 그런데 cvpr에서 llm 붙여줌? 난 주로 디퓨전 관련만 봐서 몰라서 물보는거

딥삣삐 3(112.185) 2025-04-23 12:25

답글

정말 많이 붙여주는데... paper copilot들어가서 accepted paper list ctrl f language model한번 해봐

익명(fast2747) 2025-04-23 13:09

번외로, slm이란 단어를 학계에서 잘 쓰진 않는거같음

익명(fast2747) 2025-04-15 15:26

비싸고 느리고 장비많이필요하면 현장에서 어케씀

딥삣삐 1(147.47) 2025-04-15 16:23

답글

그냥 해당 모델이 아니라 파인튜닝해서 써야지

딥삣삐 1(147.47) 2025-04-15 16:23

말한대로 증류모델 아니면 성능 안나오니 의미없지. 근데 반대로 초거대 파운데이션 모델 그대로 쓰는건 빅테크도 감당못하고 있잖아

딥삣삐 2(49.164) 2025-04-15 18:23

답글

결국 베이스라인을 sLM으로 시작하는건 의미없는 것 같고 파운데이션 모델도 확보하면서 가는게 맞는듯

딥삣삐 2(49.164) 2025-04-15 18:23

답글

gpt만 봐도 o1보다 o3-mini-high가 비용은 더 저렴한데 코딩은 더 잘할때가 많은 걸 보면 증류 기반 경량화는 확실히 의미있어보임

딥삣삐 2(49.164) 2025-04-15 18:25

답글

역시 코딩은 o3-mini-high 메모메모

익명(58.124) 2025-04-16 14:31

획기적인 아키텍처가 나타나지 않는 이상 의미 좆도 없음 그냥 빅테크가 만든 거 경량화 하는게 더 빠름

익명(223.38) 2025-04-15 21:17

[일반] SLM 의미 있음?

댓글 11

[일반] SLM 의미 있음?

댓글 11

다른 게시글

이재명 한국형 GPT 무료 존나 웃기네

요즘 강화학습 하입을 많이 하네

머신러닝 책추천해주세요

딥러닝갤 왜캐 글이 안올라옴

풀고나서 mle가 뭔지에 대해서 와닿은 백준 문제

기회가 정말 많은데

연구랑 공부가 재미없으면

얕게 공부할 땐 몰랐는데

공부 순서가 좀 고민 됨

explainable AI관해서 강의 들어봤는데