LLM에 강화학습의 적용은 사실 MDP가 아니라 contextual bandit 형태라 반토막 rlhf였는데,
이번 alphaproof로 추론능력엔 역시 강화학습이 차별성을 지닌다는게 크네

Decision Transformer류는 behavior cloning이나 다름없는데다 stochastic environment에서 성능이 되게 구린걸로 알려져있는데, 이건 어떻게 극복할지 딥마인드 행보가 너무 궁금하다