Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks
https://arxiv.org/abs/2406.02550
이거는 few-shot 개수를 얼마나 주냐에 따라 모델이 문제 해결 방법을 바꿀 수 있다는거잖아
이거는 중요한 논문 아님?
전에 올린 clock and pizza는 이거의 전신 논문이고
Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks
https://arxiv.org/abs/2406.02550
이거는 few-shot 개수를 얼마나 주냐에 따라 모델이 문제 해결 방법을 바꿀 수 있다는거잖아
이거는 중요한 논문 아님?
전에 올린 clock and pizza는 이거의 전신 논문이고
인용수가 말해주네
올해 Neurips oral인데..?
인용수가 중요한걸 의미하는건 아님. 연구적으로는 괜찮긴함 ㅇㅇ - dc App
이런 논문의 문제가 뭐나면 “일반화”가 떨어짐 수식 증명을 위해서 잔뜩 constraint 만들어두고 비현실적인 샘플에서 아름다운 페이퍼를 내는데에 특화됨. 과학자 입장에서는 동경하긴하지만, 프랙티컬한 건 오히려 직관적인 페이퍼가 훨씬 경험상 좋았음 - dc App
배치놈 같은거보면 진짜 성의없게 썼는데 개쩔잖어. 해석은 후대에서 해주고 - dc App
그래도 이건 그동안 나왔던 논문들보다 LLM 매커니즘에 제일 가깝게 재현해서 실험한건데
그…닥…. 페이퍼가 extrpolation을 증명하는건 엄청 한정된거고, 실 문제에서 난 동의하진 않는 부분 있음 - dc App
현실적으로 LLM pretraining 하듯이 raw corpus에 대해서 학습시키면, 1B 모델 만들면 '모델 사이즈 커지면 성질 달라짐 ㅅㄱ' 이러고, 100B 모델 만들면 '누가 그런 병신 실험에 100B모델을 학습하냐'함ㅋㅋ generalize 될 수가 없지 그렇게 우기면
그딴 이유가 아닌데 뭔소리냐. ㅈㄴ 쉬운 Objective function 설정해서 extrapolate했다고 주장하는 페이퍼의 llm에 대한 generality를 어떻게 받아들여 ㅋㅋ 모델 사이즈가 왜나오고, 학습 raw corpus가 왜나옴. 꼼꼼히 읽어보니 해석학적으로 의미 없는 임페리컬한 페이퍼라 오랄은 과하기 까지 생각될정돈데 prml이나 1장 더 펴봐라 뉴립스 오랄은 저런 페이퍼 수두룩 나오고 뭍히는게 대다순데 저런건 학부 때나 빨아 석사가서 저런거 빨다 졸업못한다 - dc App
아니 그러면 autoregressive language modeling이 존나 쉬운 objective function 그 자체인데 뭐냐? 이 논문에서 특별히 새로 만들어낸 objective fucntion이 있음? 나도 당연히 empirical paper가 neurips oral까지 간다는게 이상하다고는 느꼈는데, LLM에서 이따금 일어나는 grok 현상까지 재현한 다음 기존과 다른 뭔가를 보여준거잖아(few-shot 개수에 따른 추론양상의 변화) 도대체 뭐 어디까지 가야 만족하는거?
답정너?
아니 반박하는거잖아;
질문글에 뭘 반박같지도 않는 반박을함?
뭐가 반박같지도 않은 반박이래냐 설명을 해ㅋㅋ