Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks


https://arxiv.org/abs/2406.02550


이거는 few-shot 개수를 얼마나 주냐에 따라 모델이 문제 해결 방법을 바꿀 수 있다는거잖아

이거는 중요한 논문 아님?

전에 올린 clock and pizza는 이거의 전신 논문이고