이 연구는 강화학습에이전트에게 여러가지 게임을 훈련시키자 다른 새로운 게임도 해결할수 있게 되었다를 말하고 있음
내생각엔 여러가지 게임은 곧 여러가지 보상점을 의미하고
여러게임을 훈련시킨다는것은 곧 여러가지 보상점을 가지게 한다는것을 의미한다고 봄
결과적으로 여러가지 보상점을 가지게하니까 범용성이 생겼다는거임
그리고 즉각보상과 지연보상을 적절히 섞어서 지속적으로 보상을 하여 행동을 유도한다고 알고있는데
이런원리와 동일하게 여러 보상점이 있다는게 곧 지속보상을 통한 행동유도와 같다고봄
결론적으로
보상을 내리는 보상지점이 많아지면 범용성을 띠기 시작한다는게 내생각
- dc official App
보상이 있으면 성능이 향상되는 건 너무 당연한 말 아니냐
여러 보상이 있으면 범용지능이 될줄도 알았음? - dc App
ㅇㅇ 학습 속도가 문제였지.
그럼 저 연구도 님이 이미 예측했다는것임? - dc App
ㄴㄴ 내가 처음 예측한 사람은 아니고, 예측이랄 것도 없는게, 머신러닝의 정의가 '작업 T에 대해 성능(측정기준) P가 데이터(경험, 보상) E로부터 향상됐다면 그 에이전트는 T를 P에 대해 E로부터 학습한 것이다' 잖아. 보상으로부터 학습한다면 성능 향상은 정의상 당연하지
보상이 있으면 성능이 향상된다. 따라서 보상이 많으면 성능이 더향상된다 이거임? - dc App
ㄴㄴ 보상이 있는 분야에서 학습한다면 성능이 향상된다는거지. 넓은 분야의 보상이 있고, 거기에서 학습할 수 있으면 그게 넓은 분야의 성능 향상이라는거지.
넓은 분야의 보상이 보상이 많다는 말 아님? - dc App
'보상이 많다'는 중의적이잖아. 한 분야의 보상이 많은건지 여러 분야의 보상이 있어서 총량이 많은건지 애매함. 다른 용어를 써줬으면 한다.
범용지능을 만드는 방법이 밝혀진건 맞음? - dc App
왜 대답을 안함..?아니면 아니다라고 해줘 - dc App
아, 딴 일 하느라. 아무래도 속도가 문제인 거 아니겠냐
뇌는 화학적신호를 사용하고 컴퓨터는 전기라서 컴퓨터가 더 빠른거 아니야? - dc App
그럼 범용지능을 만드는 방법자체는 딥마인드가 맞다는거야? - dc App
그러면 구조의 문제가 되는거지. 화학적 신호로도 AGI를 만든 뇌랑 전기적 신호로 AGI를 만들지 못한 컴퓨터 사이의 차이니까.
왜 자꾸 맞다 틀리다를 정해 듣고 싶은거야. 그런 건 아무도 몰라. 방법이 정확하다고 해도 우리에게는 무한한 시간이 주어지지 않았으니까 틀릴 수도 있는거라고.
님이 보기에 딥마인드연구의 방향성이 범용지능을 만들기에 정확한 방법이라고 봄? - dc App
근데 이거 딥러닝이랑 관련 없는 주제 같은데
강화학습이 왜 관련이 없음? - dc App
이 댓글은 게시물 작성자가 삭제하였습니다.