[일반] 강화학습이 진짜 퇴물된 분야임?

익명(119.197) 2024-09-09 20:16 추천 2

재귀개선 하는 모델 만드려면 결국 강화학습 도입해야하지않음?

- dc official App

퇴물이 되었다기엔 전성기도 없었던거아님?

익명(175.192) 2024-09-09 20:20
답글
어떻게 분야 전성기가 바둑

익명(118.235) 2024-09-09 20:27
뤄벗 붐은 온다... 꼭!

익명(121.173) 2024-09-09 20:34
문제는 게임같은 tabular case가 아니면 개선되었는지 판별할수 없다는게 문제임. 전단지 붙이는 알바 고용했는데 그 알바가 농땡이 부리는지 아닌지 감시하는 알바를 또 고용해야 되고, 감시하는 알바가 농땡이 피우는지 아닌지 또 감시하는 알바를 고용해야되고 무한한 횟수 만큼 개선하는 작업이 필요한데 현실적으로 불가능하지... 그 모든 케이스를 포괄하는 environment reward의 구성이 가능하면 강화학습이 AGI의 열쇠긴 한데 현실문제에서 그게 가능할까?

익명(218.237) 2024-09-09 20:34
퇴물이라기엔 탑티어 AI학회의 키워드 2위가 강화학습임ㅋㅋ 1위가 딥러닝이고 Deepmind가 다른 거대모델이랑 추론영역에서 차별점을 둘 수 있는것도 강화학습 기반이라 그런거고 한달전 andrej karpathy가 비슷한 얘기를 한 인터뷰 있는데 함 봐바

익명(118.235) 2024-09-09 21:26
답글
키워드 2위 강화학습 이게 결혼선호 직업군 2위 군인 1위 민간인 이거랑 뭐가다르냐

익명(118.235) 2024-09-09 21:29
답글
딥마인드만 강화학습하는게 아닐 뿐더러 딥마인드도 모든 태스크에 강화학습 쓰는게 아닐텐데

익명(118.235) 2024-09-09 21:30
답글
미안하다 찾아보니 정확히는 딥러닝이 아니라 뉴럴네트워크엿네 1. Neural network 2. Reinforcement Learning 3. Language Model 4. Graph NN 너가 비유한거랑 다르게 대주제로써 말한거고 RL이 부분적인 포지션은 아님.

익명(118.235) 2024-09-09 21:38
답글
당연히 모든걸 RL로 한다는게 아니라, 알고리즘 모듈중 일부를 RL을 활용한다는 의미지. 당장 fine tuning쪽을 prompt만으로 해결하려는게 아니라, 내재보상을 부여하는식으로 RL기반으로 학습하는 논문도 있으니까. 강화학습의 bottleneck은 representation learning쪽에 있지 보상 시스템에 의한 한계가 아님.

익명(118.235) 2024-09-09 21:42
답글
강화학습의 문제점은 보상 시스템이 맞음;; "알고리즘 모듈중 일부를 RL을 활용한다는 의미지" = Semi-supervised 인거고 여기서부터 이미 강화학습분야로 안봄 큰 범위에서 말하면 Actor-Critic같은 구조긴 하지만, ChatGPT Actor-Critic에서 Critic부분을 사람 갈아넣어서 만든것도 RL로 안보고 딥마인드에서 추론 능력 강화도 RL로 보는게 아니라 전부 Semi-Supervised로 얘기함...

익명(218.237) 2024-09-09 22:15
답글
딥러닝이나 nn이나 거기서거기지… 그리고 연구하던 인간이라면 내용복붙이 아니라 원출처 url을 적는게 상식아니냐??

익명(118.235) 2024-09-09 22:24
답글
그리고 ‘다들 rl을 써서 연구한다’랑 ‘rl을 전공하고 연구해서 job을 얻을수 있다’ 이건 분명히 다른 부분이 있을수있다 생각함

익명(118.235) 2024-09-09 22:28
퇴물인적도 없음

익명(wanted7407) 2024-09-09 22:47
모든 머신러닝은 원래 강화학습이다 gpt도 강화학습이다 강화학습은 너무 일반화된 포맷일뿐

익명(49.142) 2024-09-10 00:08
답글
회귀 분류랑 Q table 이나 Q function 찾는게 어떻게 같은 포맷인지 설명좀

익명(125.132) 2024-09-10 11:19
연구는 할 거 개많은데 사업화하기 어려움 실제 제어쪽에 활용하기에는 리스크도 커서 기존 전통적인 제어 기술 대체를 못함

익명(118.235) 2024-09-10 13:04
그나마 활발하게 쓰이는 분야가 로보틱스인데 로보틱스쪽은 사람 데이터로 디퓨전 모델을 모방학습 많이함 파인튜닝 할 때 좀 쓰는듯?

익명(118.235) 2024-09-10 13:06
DB 분야 논문 보면 기워드로 deep reinforcement learning 존나 쏟아지는데 뭔 개소리야

익명(121.88) 2024-09-10 16:23
답글
물론 DB, stroage 분야를 주 도메인에 강화학습향 첨가한 논문들이지만

익명(121.88) 2024-09-10 16:24
답글
강화학습 자체를 연구하는 분야는 모르겠는데, 도메인 + AI 는 굉장히 많이 나옴

익명(121.88) 2024-09-10 16:24
답글
누가 db쪽 논문보면서 ai 얘기해 다 neurips iclr icml 보고 얘기하지

익명(118.235) 2024-09-10 20:44
답글
db 분야 ㅋㅋ

익명(166.104) 2024-09-11 13:14
o1-preview 나온 시점에서 댓글 단 친구들은 격세지감이겠네ㅋㅋㅋ

익명(118.235) 2024-09-14 11:38

[일반] 강화학습이 진짜 퇴물된 분야임?

댓글 23

다른 게시글

Flow matching도 diffusion식 iterative추론이지?

이스트소프트 딥러닝 리서쳐 면접영상

현업에서 베이즈,비모수,수리통계같은 심화통계 도움많이됨?

그냥 신세한탄좀 함

파이토치 dataset에서 getitem 짤 때

미분기하 이런것까지 파는건 투머치인가?

AI업계 학사 지망생들이 착각하는거

ai 쪽에서 채용하는데 왜 코테를 빡세게 보는거임?

GPT-4o Voice 모드 쓰고 있는데 넘 그렇다;

미래엔 어중간한 ai 석사 입지가 줄어들거라 생각함