문제는 게임같은 tabular case가 아니면 개선되었는지 판별할수 없다는게 문제임.
전단지 붙이는 알바 고용했는데 그 알바가 농땡이 부리는지 아닌지 감시하는 알바를 또 고용해야 되고,
감시하는 알바가 농땡이 피우는지 아닌지 또 감시하는 알바를 고용해야되고 무한한 횟수 만큼 개선하는 작업이 필요한데
현실적으로 불가능하지...
그 모든 케이스를 포괄하는 environment reward의 구성이 가능하면 강화학습이 AGI의 열쇠긴 한데
현실문제에서 그게 가능할까?
익명(218.237)2024-09-09 20:34
퇴물이라기엔 탑티어 AI학회의 키워드 2위가 강화학습임ㅋㅋ 1위가 딥러닝이고
Deepmind가 다른 거대모델이랑 추론영역에서 차별점을 둘 수 있는것도 강화학습 기반이라 그런거고
한달전 andrej karpathy가 비슷한 얘기를 한 인터뷰 있는데 함 봐바
익명(118.235)2024-09-09 21:26
답글
키워드 2위 강화학습 이게 결혼선호 직업군 2위 군인 1위 민간인 이거랑 뭐가다르냐
익명(118.235)2024-09-09 21:29
답글
딥마인드만 강화학습하는게 아닐 뿐더러 딥마인드도 모든 태스크에 강화학습 쓰는게 아닐텐데
익명(118.235)2024-09-09 21:30
답글
미안하다 찾아보니 정확히는 딥러닝이 아니라 뉴럴네트워크엿네
1. Neural network
2. Reinforcement Learning
3. Language Model
4. Graph NN
너가 비유한거랑 다르게 대주제로써 말한거고 RL이 부분적인 포지션은 아님.
익명(118.235)2024-09-09 21:38
답글
당연히 모든걸 RL로 한다는게 아니라, 알고리즘 모듈중 일부를 RL을 활용한다는 의미지. 당장 fine tuning쪽을 prompt만으로 해결하려는게 아니라, 내재보상을 부여하는식으로 RL기반으로 학습하는 논문도 있으니까.
강화학습의 bottleneck은 representation learning쪽에 있지 보상 시스템에 의한 한계가 아님.
익명(118.235)2024-09-09 21:42
답글
강화학습의 문제점은 보상 시스템이 맞음;;
"알고리즘 모듈중 일부를 RL을 활용한다는 의미지" = Semi-supervised 인거고 여기서부터 이미 강화학습분야로 안봄
큰 범위에서 말하면 Actor-Critic같은 구조긴 하지만,
ChatGPT Actor-Critic에서 Critic부분을 사람 갈아넣어서 만든것도 RL로 안보고
딥마인드에서 추론 능력 강화도 RL로 보는게 아니라 전부 Semi-Supervised로 얘기함...
익명(218.237)2024-09-09 22:15
답글
딥러닝이나 nn이나 거기서거기지… 그리고 연구하던 인간이라면 내용복붙이 아니라 원출처 url을 적는게 상식아니냐??
익명(118.235)2024-09-09 22:24
답글
그리고 ‘다들 rl을 써서 연구한다’랑 ‘rl을 전공하고 연구해서 job을 얻을수 있다’ 이건 분명히 다른 부분이 있을수있다 생각함
익명(118.235)2024-09-09 22:28
퇴물인적도 없음
익명(wanted7407)2024-09-09 22:47
모든 머신러닝은 원래 강화학습이다 gpt도 강화학습이다 강화학습은 너무 일반화된 포맷일뿐
익명(49.142)2024-09-10 00:08
답글
회귀 분류랑 Q table 이나 Q function 찾는게 어떻게 같은 포맷인지 설명좀
익명(125.132)2024-09-10 11:19
연구는 할 거 개많은데 사업화하기 어려움 실제 제어쪽에 활용하기에는 리스크도 커서 기존 전통적인 제어 기술 대체를 못함
익명(118.235)2024-09-10 13:04
그나마 활발하게 쓰이는 분야가 로보틱스인데 로보틱스쪽은 사람 데이터로 디퓨전 모델을 모방학습 많이함 파인튜닝 할 때 좀 쓰는듯?
익명(118.235)2024-09-10 13:06
DB 분야 논문 보면 기워드로 deep reinforcement learning 존나 쏟아지는데 뭔 개소리야
퇴물이 되었다기엔 전성기도 없었던거아님?
어떻게 분야 전성기가 바둑
뤄벗 붐은 온다... 꼭!
문제는 게임같은 tabular case가 아니면 개선되었는지 판별할수 없다는게 문제임. 전단지 붙이는 알바 고용했는데 그 알바가 농땡이 부리는지 아닌지 감시하는 알바를 또 고용해야 되고, 감시하는 알바가 농땡이 피우는지 아닌지 또 감시하는 알바를 고용해야되고 무한한 횟수 만큼 개선하는 작업이 필요한데 현실적으로 불가능하지... 그 모든 케이스를 포괄하는 environment reward의 구성이 가능하면 강화학습이 AGI의 열쇠긴 한데 현실문제에서 그게 가능할까?
퇴물이라기엔 탑티어 AI학회의 키워드 2위가 강화학습임ㅋㅋ 1위가 딥러닝이고 Deepmind가 다른 거대모델이랑 추론영역에서 차별점을 둘 수 있는것도 강화학습 기반이라 그런거고 한달전 andrej karpathy가 비슷한 얘기를 한 인터뷰 있는데 함 봐바
키워드 2위 강화학습 이게 결혼선호 직업군 2위 군인 1위 민간인 이거랑 뭐가다르냐
딥마인드만 강화학습하는게 아닐 뿐더러 딥마인드도 모든 태스크에 강화학습 쓰는게 아닐텐데
미안하다 찾아보니 정확히는 딥러닝이 아니라 뉴럴네트워크엿네 1. Neural network 2. Reinforcement Learning 3. Language Model 4. Graph NN 너가 비유한거랑 다르게 대주제로써 말한거고 RL이 부분적인 포지션은 아님.
당연히 모든걸 RL로 한다는게 아니라, 알고리즘 모듈중 일부를 RL을 활용한다는 의미지. 당장 fine tuning쪽을 prompt만으로 해결하려는게 아니라, 내재보상을 부여하는식으로 RL기반으로 학습하는 논문도 있으니까. 강화학습의 bottleneck은 representation learning쪽에 있지 보상 시스템에 의한 한계가 아님.
강화학습의 문제점은 보상 시스템이 맞음;; "알고리즘 모듈중 일부를 RL을 활용한다는 의미지" = Semi-supervised 인거고 여기서부터 이미 강화학습분야로 안봄 큰 범위에서 말하면 Actor-Critic같은 구조긴 하지만, ChatGPT Actor-Critic에서 Critic부분을 사람 갈아넣어서 만든것도 RL로 안보고 딥마인드에서 추론 능력 강화도 RL로 보는게 아니라 전부 Semi-Supervised로 얘기함...
딥러닝이나 nn이나 거기서거기지… 그리고 연구하던 인간이라면 내용복붙이 아니라 원출처 url을 적는게 상식아니냐??
그리고 ‘다들 rl을 써서 연구한다’랑 ‘rl을 전공하고 연구해서 job을 얻을수 있다’ 이건 분명히 다른 부분이 있을수있다 생각함
퇴물인적도 없음
모든 머신러닝은 원래 강화학습이다 gpt도 강화학습이다 강화학습은 너무 일반화된 포맷일뿐
회귀 분류랑 Q table 이나 Q function 찾는게 어떻게 같은 포맷인지 설명좀
연구는 할 거 개많은데 사업화하기 어려움 실제 제어쪽에 활용하기에는 리스크도 커서 기존 전통적인 제어 기술 대체를 못함
그나마 활발하게 쓰이는 분야가 로보틱스인데 로보틱스쪽은 사람 데이터로 디퓨전 모델을 모방학습 많이함 파인튜닝 할 때 좀 쓰는듯?
DB 분야 논문 보면 기워드로 deep reinforcement learning 존나 쏟아지는데 뭔 개소리야
물론 DB, stroage 분야를 주 도메인에 강화학습향 첨가한 논문들이지만
강화학습 자체를 연구하는 분야는 모르겠는데, 도메인 + AI 는 굉장히 많이 나옴
누가 db쪽 논문보면서 ai 얘기해 다 neurips iclr icml 보고 얘기하지
db 분야 ㅋㅋ
o1-preview 나온 시점에서 댓글 단 친구들은 격세지감이겠네ㅋㅋㅋ