7cf3da36e2f206a26d81f6e442867764b2


보상 자체가 1 step 미래에 나오다 보니 loss gradient 전파를 바로바로 호출을 못하는 상황이 나오네..
대충 네트워크 출력 텐서들을 메모리에 clone해서 보관해놓고 있다가 미래 데이터가 입력되면 꺼내서 역전파를 하는식으로 해결되긴하는데 여전히 좀 헷갈리누..