https://arxiv.org/abs/2306.17844


The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks 이라는 논문인데

모델이 모듈러 연산 학습할 때 Clock 알고리즘으로 인식하는지 Pizza 알고리즘으로 인식하는지에 대한 논문 맞음?

근데 어텐션을 사용하기 쉬울 때 Clock 알고리즘으로 수렴하는지 Pizza 알고리즘으로 수렴하는지 잘 모르겠음 오히려 수식 잔뜩있는 논문보다 더 어렵다...