case1
layer2 requures grad false
layer 1 3 requires grad true
optimizer에는 전부 넣음
case2
layer 1 2 3 requires grad true
optimizer에는 1,3만 넣음
둘이 결과 다른가요?
layer2 requures grad false
layer 1 3 requires grad true
optimizer에는 전부 넣음
case2
layer 1 2 3 requires grad true
optimizer에는 1,3만 넣음
둘이 결과 다른가요?
애초에 첫 번째 케이스가 토치로 코드가 돌아감? Layer 1 - 2 - 3 연결된 형태에서 layer 2에서 그래디언트를 안 구하면 체인룰을 어케 적용함
여기서는 흐르긴한다고되어있어서요
https://nuguziii.github.io/dev/dev-003/
웨이트의 그래디언트랑 액티베이션의 그래디언트랑 다르지
다름