"제미니는 지난 5월 구글 연례 개발자 회의 'I/O 2023'에서 LLM 기술과 알파고에서 사용하는 강화학습 기술을 결합한 모델로 소개한 바 있다"
댓글 9
아니 그냥 강화학습 자체가 워낙어렵고 잘안되서 그럼 - dc App
익명(219.249)2023-11-25 15:47:00
답글
알파고땐 강화학습 하는 연구자들 많았는데 지금은 인기 다꺼짐 - dc App
익명(219.249)2023-11-25 15:48:00
답글
ㅇㅎ 딥마인드에서도 쉽지 않은가 보네
익명(182.230)2023-11-25 15:49:00
저긴 구글 LLM 팀 리더고
강화학습은 딥마인드쪽
익명(125.191)2023-11-25 15:54:00
답글
링크드인 보니까 구글 딥마인드 LLM Reasoning 수석 과학자/연구 책임자라고 나오는데 둘이 다른거?
익명(182.230)2023-11-25 15:59:00
답글
음? 구글 LLM이랑 딥마인드랑 합친 거 아니었음??
익명(175.206)2023-11-25 16:13:00
LLM도 RL을 쓰지만 RL을 적용할 수 있는 분야가 한정적임. 저 트윗 스레드보면 ’RL is perfect for games‘라고 하는데 그 이유가 여태까지 강화학습이 해결해온 문제들을 보면 공통적으로 게임처럼 정의할 수 있고 시뮬레이션이 가능하다는 특징이 있어서 그럼
익명(180.182)2023-11-25 16:05:00
답글
특히 환경과 인터렉션하면서 학습하는 온라인 강화학습 알고리즘 발전은 몇년 간 없었고 연구자들은 데이터를 어떻게 효율적으로 쓸지 생각하면서 점점 SL과 비슷하게 연구하고 있음(오프라인 강화학습 이라고 함)
아니 그냥 강화학습 자체가 워낙어렵고 잘안되서 그럼 - dc App
알파고땐 강화학습 하는 연구자들 많았는데 지금은 인기 다꺼짐 - dc App
ㅇㅎ 딥마인드에서도 쉽지 않은가 보네
저긴 구글 LLM 팀 리더고 강화학습은 딥마인드쪽
링크드인 보니까 구글 딥마인드 LLM Reasoning 수석 과학자/연구 책임자라고 나오는데 둘이 다른거?
음? 구글 LLM이랑 딥마인드랑 합친 거 아니었음??
LLM도 RL을 쓰지만 RL을 적용할 수 있는 분야가 한정적임. 저 트윗 스레드보면 ’RL is perfect for games‘라고 하는데 그 이유가 여태까지 강화학습이 해결해온 문제들을 보면 공통적으로 게임처럼 정의할 수 있고 시뮬레이션이 가능하다는 특징이 있어서 그럼
특히 환경과 인터렉션하면서 학습하는 온라인 강화학습 알고리즘 발전은 몇년 간 없었고 연구자들은 데이터를 어떻게 효율적으로 쓸지 생각하면서 점점 SL과 비슷하게 연구하고 있음(오프라인 강화학습 이라고 함)
강화학습 트렌드도 계속 변화하고 있구나