학습 데이터를 스스로 생성, 수집하고(gpt policy) 나온 데이터로 reward model 학습시키고 다시 그걸로 자기 모델 업데이트하는 방식4단계는 아닌거같음 장병탁교수가 4단계는 목적함수를 스스로 정의하고 수정하는 레벨이라 함 - dc official App
해당 댓글은 삭제되었습니다.
Gpt4 나오고 얼마 안 있어서 였던걸로 기억
선