Batch Normalization: Accelerating Deep Network Training by
Reducing Internal Covariate Shift
위 논문 리뷰했는데 배치 정규화가 드롭아웃의 필요성을 줄일수 있다고언급하는데
어떤 원리로 배치 정규화가 과적합 문제에 기여하는지 혹시 아는 사람있음?
댓글 9
배치 정규화는 과적합 방지를 위해 나온 게 아님. 논문 이름에도 있듯이 Internal Covariate Shift로 인한 경사 소실 문제를 해결하려는 거지. 근데 만약 과적합이 완화되는 효과가 발생했다면 일반적인 정규화 기법과 비슷한 효과가 있어서라고 추측할 수 있을듯
익명(165.194)2024-08-30 09:03
but it should be noted that the BN transform does 'not
independently' process the activation in each training example. Rather, BNγ,β(x) depends both on the training
example and the other examples in the mini-batch. The
scaled and shifted values y are passed to other network
layers.
배치 정규화는 과적합 방지를 위해 나온 게 아님. 논문 이름에도 있듯이 Internal Covariate Shift로 인한 경사 소실 문제를 해결하려는 거지. 근데 만약 과적합이 완화되는 효과가 발생했다면 일반적인 정규화 기법과 비슷한 효과가 있어서라고 추측할 수 있을듯
but it should be noted that the BN transform does 'not independently' process the activation in each training example. Rather, BNγ,β(x) depends both on the training example and the other examples in the mini-batch. The scaled and shifted values y are passed to other network layers.
아 ㄱㅅㄱㅅ 이거보고 식 다시보니까 이해됬다
혹시 배치 사이즈를 줄인다면 위 효과가 더 극대화 될수 있어?
https://www.youtube.com/watch?v=P6sfmUTpUmc&t=2487s
https://www.youtube.com/watch?v=0dNAhN4ypFc&list=PL_iWQOsE6TfVmKkQHucjPAoRtIJYt8a5A&index=20
ㄳㄳ... 전체적으로 논문 더 깊게 이해하는데 도움이 됬음 2번째 영상 중점으로 보긴했는데 마지막 부분에서도 bn이 왜 generalization이 적게 필요한지 명확하지 않고 case상 그런 효과가 나타난다고만 언급하네..
https://arxiv.org/pdf/2105.07576
와 고맙다 지금은 다른거 읽는중이라 자세히는 못보고 훑어만 봤는데 배치사이즈 별 generalization효과를 시각화 시킨게 그래프 자료가 있네 덕분에 궁금한점 해결됬다... 그냥 지나칠수 있는 글에 상세한 답변 달아줘서 ㄳㄳ