[일반] 지금 나오는 Q스타 딥마인드 뮤제로랑은 아예 다른거?

익명(112.214) 2023-11-24 15:51:00 추천 0

뮤제로식 강화학습이랑은 다른건가?

뮤 제로는 상대방의 상황과 본인의 상황이 완전히 오픈된 상태에 적합한 몬테카를로 트리 서치 기반인데, 스타의 경우 맵이 안개로 가려져 상대방의 상황을 알 수 없기 때문에 뮤 제로를 적용하기 어려움.

익명(180.65) 2023-11-24 15:56:00
답글
그 스타가아닌듯.. 언어모델 환경은 MDP인듯

익명(219.249) 2023-11-24 16:05:00
답글
아 그렇네..;; 강화학습에는 크게 'Q-learning'과 'Value 기반 learning'이 있는데 Q*는 Q-learning을 LLM에 적용함. 글의 질문에 다시 대답 하자면, 뮤 제로는 Q-learning과 Value 기반 learning을 모두 사용하고 있기 때문에 Q-learning 기법을 공유하고 있다고 할 수 있음.

익명(180.65) 2023-11-24 16:13:00
답글
답변 감사합니다.

익명(112.214) 2023-11-24 16:14:00

댓글 4