08edf47ec08b68f523ef8ee3459c701ee3527e756fd5dd13d405ce68cb9cf7c7f924c9dab8f86c7a1f1b19ea2b0956e9e5b806c4

학습 데이터를 스스로 생성, 수집하고(gpt policy) 나온 데이터로 reward model 학습시키고 다시 그걸로 자기 모델 업데이트하는 방식

4단계는 아닌거같음 장병탁교수가 4단계는 목적함수를 스스로 정의하고 수정하는 레벨이라 함 

- dc official App