뮤제로식 강화학습이랑은 다른건가?
[일반] 지금 나오는 Q스타 딥마인드 뮤제로랑은 아예 다른거?
익명(112.214)
2023-11-24 15:51:00
추천 0
댓글 4
다른 게시글
-
이젠 나만의 작은 특갤은 사라졌네
[1][일반] 익명(59.9) | 23.11.24추천 0 -
agi 올때까지 생존하면 돼는거지??
[2][일반] 익명(210.121) | 23.11.24추천 0 -
알트만,지미애플:gemini나오면 뒤진다
[2][일반] 익명(143.244) | 23.11.24추천 3 -
챗gtp한테 행복해지는 방법에 대해 물엇는데
[5][일반] 익명(218.54) | 23.11.24추천 1 -
서양에서 유독 ‘미국'만 잘 나가는 이유가 뭐임???
[10][일반] 익명(119.71) | 23.11.24추천 0 -
특이점이 온다 책 2007년에 나온 건데
[9][일반] 프로젝트(aurora6540) | 23.11.24추천 0 -
나는 구글이 좀 더 힘을 냈으면 좋겠어
[1][일반] 익명(119.206) | 23.11.24추천 6 -
진지하게 OAI랑 다른 업체랑 기술 격차가 5년 아님?
[1][일반] 익명(61.79) | 23.11.24추천 0 -
다른 언어모델은 수준이 진짜 처참하네 ;;;
[9][일반] 익명(61.79) | 23.11.24추천 30 -
난 정말 특이점이 오면 해보고 싶은게
[2][일반] 익명(182.230) | 23.11.24추천 1
뮤 제로는 상대방의 상황과 본인의 상황이 완전히 오픈된 상태에 적합한 몬테카를로 트리 서치 기반인데, 스타의 경우 맵이 안개로 가려져 상대방의 상황을 알 수 없기 때문에 뮤 제로를 적용하기 어려움.
그 스타가아닌듯.. 언어모델 환경은 MDP인듯
아 그렇네..;; 강화학습에는 크게 'Q-learning'과 'Value 기반 learning'이 있는데 Q*는 Q-learning을 LLM에 적용함. 글의 질문에 다시 대답 하자면, 뮤 제로는 Q-learning과 Value 기반 learning을 모두 사용하고 있기 때문에 Q-learning 기법을 공유하고 있다고 할 수 있음.
답변 감사합니다.