선형공간 얘기는 뭔소린지 모르겠네 ntk는 그냥 특정 regime에서 gradient 기반 학습의 dynamics가 선형적으로 단순해지니 최종nn이 가지는 몇몇 성질들을 이론적으로 예측하기 쉬워진다는거고 그걸 응용해서 써먹은것들이 위 댓글 방벚론들
익명(39.7)2024-11-09 16:21:00
답글
그러면 이미지같은 인풋데이터의 차원이 크면 못씀? - dc App
글쓴 딥부이(221.154)2024-11-09 16:27:00
답글
중간레이어 차원이 무한대로 갈때 얘기들이라 인풋차원이랑 좆도 상관없음
익명(39.7)2024-11-09 16:31:00
답글
그리고 요새 다 ViT 써서 이미지들 패치로 나눠서 보는 시대에 이미지 디멘션이 크다는 얘기는 좀…
익명(39.7)2024-11-09 16:33:00
신경망과 커널회귀 모델의 경사 하강법 수식의 유사성을 이용하여 경사하강법으로 학습되는 신경망의 수렴성을 증명할 수 있다는게 NTK의 개념임, 무한 width라는거는 NTK로 수렴성을 증명하기 위한 가정 같은거고
딥부이 1(203.230)2024-11-09 21:41:00
답글
NTK는 그냥 해봤더니 잘되더라였던 기존 신경망 연구를 "왜" 잘되더라로 해석 수준을 높여주는 역할을 하기 때문에 매우 유용한 개념임, 가령 NTK 분석을 통해 학습이 잘 안됬던 요인 중 하나가 파라미터의 고유값 차이로 인하여 각 파라미터의 학습이 불균형하게 이루어지고 있었고 이로 인해 고주파 영역 학습이 잘 안되었다는 것을 분석해내고 따라서 이를 푸리에 피처라는 것을 도입하였더니 NTK의 고유값이 균일해져 고주파 영역에서의 학습이 개선되었더라 라는게 일반적인 플로우지
딥부이 1(203.230)2024-11-09 21:59:00
답글
NTK의 원저자는 이렇게 분석하는게 타당하다는 것을 설명하기 위해서 2차 오일러 방법 부터 시작해서 조금 난해하게 설명해뒀는데 그런거 쳐내면 사실 급식충들도 이해할수 있을 정도로 쉬운 개념이라 정 이해가 안되면 페드루 도밍고스 "Every Model Learned by Gradient Descent Is Approximately a Kernel Machine" 같은걸 읽는게 더 이해하기 쉬울거임
딥부이 1(203.230)2024-11-09 22:10:00
답글
ㅋㅋㅋㅋ 그거 혹시 패스 커널인가 그거 했던 논문 맞나? 예전에 보고 되게 좋아하다가 뭔가 엄청 껄적지근한 포인트 있어서 고민 많이 했었는데 잘 기억이 안나네
YaRN, muP, fourier feature network
선형공간 얘기는 뭔소린지 모르겠네 ntk는 그냥 특정 regime에서 gradient 기반 학습의 dynamics가 선형적으로 단순해지니 최종nn이 가지는 몇몇 성질들을 이론적으로 예측하기 쉬워진다는거고 그걸 응용해서 써먹은것들이 위 댓글 방벚론들
그러면 이미지같은 인풋데이터의 차원이 크면 못씀? - dc App
중간레이어 차원이 무한대로 갈때 얘기들이라 인풋차원이랑 좆도 상관없음
그리고 요새 다 ViT 써서 이미지들 패치로 나눠서 보는 시대에 이미지 디멘션이 크다는 얘기는 좀…
신경망과 커널회귀 모델의 경사 하강법 수식의 유사성을 이용하여 경사하강법으로 학습되는 신경망의 수렴성을 증명할 수 있다는게 NTK의 개념임, 무한 width라는거는 NTK로 수렴성을 증명하기 위한 가정 같은거고
NTK는 그냥 해봤더니 잘되더라였던 기존 신경망 연구를 "왜" 잘되더라로 해석 수준을 높여주는 역할을 하기 때문에 매우 유용한 개념임, 가령 NTK 분석을 통해 학습이 잘 안됬던 요인 중 하나가 파라미터의 고유값 차이로 인하여 각 파라미터의 학습이 불균형하게 이루어지고 있었고 이로 인해 고주파 영역 학습이 잘 안되었다는 것을 분석해내고 따라서 이를 푸리에 피처라는 것을 도입하였더니 NTK의 고유값이 균일해져 고주파 영역에서의 학습이 개선되었더라 라는게 일반적인 플로우지
NTK의 원저자는 이렇게 분석하는게 타당하다는 것을 설명하기 위해서 2차 오일러 방법 부터 시작해서 조금 난해하게 설명해뒀는데 그런거 쳐내면 사실 급식충들도 이해할수 있을 정도로 쉬운 개념이라 정 이해가 안되면 페드루 도밍고스 "Every Model Learned by Gradient Descent Is Approximately a Kernel Machine" 같은걸 읽는게 더 이해하기 쉬울거임
ㅋㅋㅋㅋ 그거 혹시 패스 커널인가 그거 했던 논문 맞나? 예전에 보고 되게 좋아하다가 뭔가 엄청 껄적지근한 포인트 있어서 고민 많이 했었는데 잘 기억이 안나네
ㅇㅇ 맞음