제가 아는 MDP는 행동이랑 상태가 분리돼서 어떤 상태에서 행동을 하면 그 행동에 따라 상태변이 확률이 있는건데, 이 지문에서는 상태에서 바로 다음상태로 가는 확률만 나타나 있습니다. 이건 오류 아닌가요?- dc official App
저 그림에서 원이 상태고 선이 행동
근데 어떤 행동을 할 확률이랑 그 행동을 했을 때 어떤 상태가 될 확률이 별개라 좀 이상하긴 하네
말그대로 ‘수능‘ 말고는 개념 따지려고 하지 마셈 전공자 입장에선 오류 많음
마르코프 체인을 설명하려고 단순화시킨 듯 행동에 따른 상태변화 확률을 일일이 기술하는 건 너무 복잡해지니까 행동을 싹 생략한 거 같음
그런거 따지지마라 중요한게 아님. 어떤 내용이 적혀있는지를 파악하는게 중요한거지 저 기술의 개념을 이해하는게 중요한게 아니잖아. 보통 일 못하고 연구 못하는 애들이 중요한걸 파악 못함.
오류 아닌데요? 선이 행동이잖아요
오류 아님 저거는 action이 각 state당 한개만 할당되어있는 MDP인거임 - dc App
보통 MDP가 일반적인 개념이라 저 용어를 사용한건데 이제 저 상황을 MRP(markov reward process)상황이라고 볼수있음 - dc App
작년에 디퓨전 나왔다고 이런것도 지문에 나오네 ㅋㅋ 근데 인공지능은 작년에 한번 써먹어서 당분간 안나오지 않을까?