[일반] o1 어떻게 생각함?

익명(118.235) 2024-09-14 16:08 추천 1

강화학습이 많이 사용되었다고 하는데 강화학습 이제 떡상 각이냐?

알파고 떴을때 강화학습이 뜨지는 않았지않나

익명(118.235) 2024-09-14 16:23
답글
그땐 응용처가 게임 정도밖에 없었잖음

익명(118.235) 2024-09-14 16:25
o1 성능이 놀랄만한 정도라고 보이지않음

익명(175.192) 2024-09-14 16:26
여기 강화학습을 SSL정도로 이해하는 곳이라 물어봐도 잘모름

익명(118.235) 2024-09-14 16:45
답글
님 강화학습 전공임?

익명(118.235) 2024-09-14 20:26
답글
네

익명(118.235) 2024-09-14 21:01
답글
오픈ai에선 추론에서 강화학습을 활용했다고 하는데 그럼 강화학습이 전망이 좋은걸까요?

익명(118.235) 2024-09-14 21:03
답글
국내에선 reasoner단계로 넘어갈 정도로 기술이 성숙되진않아서 당장은 모르겠네요. 추론쪽으로 기술격차 좁힐 의향이 있거나, 언어모델이 아니라 다른 foundation model쪽으로 생각하는거면 RL은 내재적으로 쓰일수 밖에 없어요.(RLHF 얘기하는거 아님)

익명(118.235) 2024-09-14 21:13
답글
강화학습을 SSL로만 이해하는 분들은 지금까지 LLM을 contextual bandit 문제로 해석해와서 그렇지, 추론까지 섞으면 CoT를 action으로 하는 MDP로 바껴서 기존처럼 SSL로 해석할 수 없게 됩니다.

익명(118.235) 2024-09-14 21:17
답글
ㅇㅎ... ㄱㅅㄱㅅ

익명(118.235) 2024-09-14 21:21
답글
? contextual bandit 이랑 POMDP랑 뭐가 다른데? 걍 댓글 쓴 애가 LLM을 제대로 이해 못하고 강화학습 뽕에 빠져있는거 아님?

익명(218.237) 2024-09-14 22:59
답글
Contextual Bandit은 transition이 없는거라 1-step MDP인거고 POMDP는 그냥 observation 개념 들어간 MDP입니다. LLM에서 rlhf쓴다고 RL에서 쓴줄아는데 그냥 contextual bandit 셋업에서의 PPO를 적용한거임.

익명(118.235) 2024-09-14 23:23
답글
우으

focalors(pytorch) 2024-09-15 01:28
강화학습이 전망이 좋냐 LLM이 전망이 좋냐 이분법적으로 생각할게 아니라 LLM 연구하다가도 이쪽 분야에 강화학습 적용 연구할만한게 있어보이면 걍 연구하고 그러는거지

익명(147.46) 2024-09-14 21:09
훌륭하다

료멘스쿠나(106.101) 2024-09-15 19:08

[일반] o1 어떻게 생각함?

댓글 15

다른 게시글

AI로 노래 2차 창작 저작권 질문

hyperparameter 어떻게들 정하냐 Bayesian opt 씀?

근데 사람은 추론하는 거 맞냐?

속도도 안돼 메모리도 많이먹어 성능도 안좋아

mnist 원래 잘나와야하지?

르쿤이형 패배선언 기대되면 개추 ㅋㅋㅋㅋㅋ

오토 인코더랑 lstm 사용해서

여기는 중국어방이랑 시스템 논쟁에 대해 어떻게 생각함?

score based model 바보같은 질문 하나만

담배필때 니코틴이