https://arxiv.org/abs/2306.17844
The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks 이라는 논문인데
모델이 모듈러 연산 학습할 때 Clock 알고리즘으로 인식하는지 Pizza 알고리즘으로 인식하는지에 대한 논문 맞음?
근데 어텐션을 사용하기 쉬울 때 Clock 알고리즘으로 수렴하는지 Pizza 알고리즘으로 수렴하는지 잘 모르겠음 오히려 수식 잔뜩있는 논문보다 더 어렵다...
1분 읽어봤는데. 어텐션이 어디로 수렴한다가 아니라, 2가지 특성을 띈다로 보는게 맞음. 파라미터와 학습에 따라 정도가 변하고 - dc App
이런건 걍 지적유희정도로 보고 대충 넘어가. 뉴립스에 페이퍼 채워야할때 mit같은 놈들이 냄. 내 기준으로 의미 없는 페이퍼 - dc App
Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks 이 논문 전신이라 본거긴해