휴먼피드백강화학습은 gpt4 때 이미 사용된거고..


요즘 뭐 새로운 강화학습 적용법 있어여?



9