보상이 지연되는게 문제라면
그냥 보상을 빨리주는게 해결책인가??
지연보상의 해결책이 뭐임??
지연보상이라는게 빨리 줄 수 있는 개념이 아님. 스타를 예로 들자면 내가 4드론을 했느냐 5드론을 했느냐가 승패로 갈리는데 뭐가 결정적인 영향을 줬는지 모른다는거임.
4드론, 5드론을 했을 때 실시간으로 승률을 구하려는 시도가 알파고랑 비슷한 DQN이고.
승률을 어떻게구함?
지연보상의 해결책이 뭐임
4드론,5드론으로 게임의 승률을 알수있었다면 알파스타같이 미니게임 훈련을 시키지 않아도 되는거 아님??
미니게임 훈련자체가 미니게임을 승리할시 보상을 준다는 말같은데, 이말은 게임을 이기기위한 단계(미니게임)별로 보상을 준다는거 같은데 아님? 지연보상이 문제이기 때문에 보상을 단계적으로 지속적으로 주어서 행동을 유도해 승리로 이끈다는 말같은데..
여러가지 방법이 있겠지만 유명한 걸론 학습시작 시점을 랜덤하게 하는 게 있음
그렇게 하면 특정상태가 다른 상태보다 가치있는 상태라는걸 짐작할 수 있고 이를 액션취할 때 고려하면 결국 지연보상 문제가 완화됨
지연보상이라는게 빨리 줄 수 있는 개념이 아님. 스타를 예로 들자면 내가 4드론을 했느냐 5드론을 했느냐가 승패로 갈리는데 뭐가 결정적인 영향을 줬는지 모른다는거임.
4드론, 5드론을 했을 때 실시간으로 승률을 구하려는 시도가 알파고랑 비슷한 DQN이고.
승률을 어떻게구함?
지연보상의 해결책이 뭐임
4드론,5드론으로 게임의 승률을 알수있었다면 알파스타같이 미니게임 훈련을 시키지 않아도 되는거 아님??
미니게임 훈련자체가 미니게임을 승리할시 보상을 준다는 말같은데, 이말은 게임을 이기기위한 단계(미니게임)별로 보상을 준다는거 같은데 아님? 지연보상이 문제이기 때문에 보상을 단계적으로 지속적으로 주어서 행동을 유도해 승리로 이끈다는 말같은데..
여러가지 방법이 있겠지만 유명한 걸론 학습시작 시점을 랜덤하게 하는 게 있음
그렇게 하면 특정상태가 다른 상태보다 가치있는 상태라는걸 짐작할 수 있고 이를 액션취할 때 고려하면 결국 지연보상 문제가 완화됨