[일반] 트랜스포머랑 강화학습이랑 같은모델에 붙일수잇음?

익명(211.168) 2024-12-19 15:17:00 추천 0

0490f719b0876df720b5c6b011f11a39bb4d4f81b78a0d39c5

트랜스포머기반으로 학습시킨걸 물리법칙 어색한영상에서 잘못된부분을 잘찾아내는데 리워드주는식으로 튜닝하는방법은 없나

댓글 3

해당 댓글은 삭제되었습니다.

해당 댓글은 삭제되었습니다. 2026-06-26 05:09:31.575293
답글
RLHF가 내가 생각한거랑 비슷하네

익명(211.168) 2024-12-19 15:27:00
답글
ㅇㅇ 웬만한 상용LLM들은 이미 다 활용하고있는방법이구나

익명(211.168) 2024-12-19 15:30:00