이 연구는 강화학습에이전트에게 여러가지 게임을 훈련시키자 다른 새로운 게임도 해결할수 있게 되었다를 말하고 있음

내생각엔 여러가지 게임은 곧 여러가지 보상점을 의미하고

여러게임을 훈련시킨다는것은 곧 여러가지 보상점을 가지게 한다는것을 의미한다고 봄

결과적으로 여러가지 보상점을 가지게하니까 범용성이 생겼다는거임

그리고 즉각보상과 지연보상을 적절히 섞어서 지속적으로 보상을 하여 행동을 유도한다고 알고있는데

이런원리와 동일하게 여러 보상점이 있다는게 곧 지속보상을 통한 행동유도와 같다고봄

결론적으로

보상을 내리는 보상지점이 많아지면 범용성을 띠기 시작한다는게 내생각

- dc official App