훈련모델 A를 준비하고

A의

입력=이전상황

출력=다음상황

------------------------------------

보상모델 B를 준비

B의

입력=이전상황+다음상황

출력=예측이 맞으면 긍정, 예측이 틀리면 부정
-----------------------------------

A의 입력과 출력을 B에 넣고 판정을 받음

긍정 판정시 A의 입력과 출력을 A에 학습시킴

부정 판정시 다른예측을 내놓도록 시킴



왜하필 보상모델을 썼냐면



openai에서 썼기때문에..