숨터

3번 이후 과정이야 안될거 같진않다만 2번처럼 학습시키면 보상모델이 곱창날거 같은데??

익명(39.7) 2024-09-18 11:21

답글

그리고 단순히 노이즈 섞인 정도를 보상모델로 쓰는거면 그냥 디퓨전 하는거랑 뭐가 차이일지도 모르겠음

익명(39.7) 2024-09-18 11:23

답글

저는 보상모델을 훈련시키면 보상모델이 여러그림들간의 규칙성을 파악해내서 보상모델에 제공한 정보이상의 것을 판정내릴수있게된다고 생각합니다

익명(211.224) 2024-09-18 11:25

답글

그니까 내말은 그게되려면 훈련 loss를 저거보다 잘 정의해야 한단거지 아무렇게나 데이터 때려박고 막 훈련시킨다고 모델이 니가 원하는걸 마법같이 잘하는게 아님

익명(39.7) 2024-09-18 11:27

답글

전 마법같이 잘한다고 믿고있어요

익명(211.224) 2024-09-18 11:29

답글

괜히 밑밑글 댓에 링크에서 llava랑 bert 붙여가지고 쌩지랄을 떠는게 아님

익명(39.7) 2024-09-18 11:29

답글

근데 그림그리는 모델을 만드는데에 보상모델 쓰는게 왜안된다는건지 잘모르겠어요

익명(211.224) 2024-09-18 11:31

답글

보상모델 쓰면 안된다 (x) 써도되는데 그럴거면 보상모델을 더 잘 만들어야된다 (o)

익명(39.7) 2024-09-18 11:33

답글

마법같이 잘 안되니까 지금 연구하는 애들이 다 좆빠지게 연구를 하겠지?

익명(39.7) 2024-09-18 11:34

답글

왜 보상모델을 사용하는게 더 우월하다고 생각하냐면, 보상모델에 여러 예제를 학습시키면 보상모델이 그 자료들간의 규칙성과 관계? 뭐가되었든 "무엇이 좋은그림이다" 라는걸 심층적으로 이해하는 능력이 보상모델에 생긴다고 생각해요 그래서 그 보상모델에 제공한 자료 이상의 것을 그 보상모델이 판정할수 있게되는거죠

익명(211.224) 2024-09-18 11:34

답글

결국 주장은 “여러예제를 학습시킨다 -> 심층이해 능력이 생긴다“ 이건데 이게 맞다틀리다를 떠나서 그러면 그냥 애초에 바로 생성모델에 학습시키면 안됨? 왜 보상모델이 하는걸 생성모델은 못할거라 생각함??

익명(39.7) 2024-09-18 11:36

답글

https://gall.dcinside.com/thesingularity/524338
여기
댓글보고요

익명(211.224) 2024-09-18 11:46

답글

댓이 뭔소린지 모르겠네 애초에 모든 머신러닝 모델 목표가 비슷한 뭔가를 학습해서 답이없는걸 푸는건데

익명(39.7) 2024-09-18 12:07

답글

그럼 생성모델과 보상모델을 이용해 훈련한 모델은 성능차이가 없나요?

익명(211.224) 2024-09-18 12:08

답글

”rl로 학습된 보상모델을 unlabeled input에 적용해 그 결과를 proxy label처럼 쓸수있다“ 이런 주장이라면 꼭 보상모델로만 그게 되는건 아님. 그냥 llm이나 하다못해 cnn같은걸로도 synthetic label 만들어서 학습시키는게 잘 되는게 알려져있는데 뭘

익명(39.7) 2024-09-18 12:10

답글

”어떤 방식이 어떤 방식보다 무조건 우월하다“ 이건 없음. 보상모델이 잘 하는게 있고 그냥 self supervised나 distillation이나 이런것들이 잘 하는게 있고 그런거지.

익명(39.7) 2024-09-18 12:13

답글

openai에서 내놓은 논문
https://gall.dcinside.com/mgallery/board/view?id=thesingularity&no=516250
을
보면 보상모델을 만들어서 뭔가를 했다는데
이 사람들이 보상모델을 쓴 이유가 있지않을까요

익명(211.224) 2024-09-18 12:14

답글

그 이유가 “보상 모델이 무조건 우월하다” 이게 아니라고…

익명(39.7) 2024-09-18 12:15

답글

전 이유가 궁금하댔지 다른말은 안했는데요

익명(211.224) 2024-09-18 12:16

답글

이유는 나도 openai 들어가서 알아보고싶다야

익명(39.7) 2024-09-18 12:17

답글

아니그럼 왜 처음부터 풀이과정을 직접적으로 모델에 안훈련시키고 보상모델을 거쳐서 검증된 풀이과정을 학습시키는거야?ChatGPT의 말:ChatGPT좋은 질문이야. 처음부터 풀이 과정을 직접적으로 모델에 훈련시키지 않고 보상모델을 사용하는 이유는 다음과 같아:모델의 초기 상태와 한계:초기 모델은 모든 풀이 과정을 완벽하게 학습하기 어렵고, 복잡한 문제를 정확하게 푸는 데 필요한 모든 세부사항을 내재화하기 힘들어. 보상모델을 사용하면, 모델이 스스로 풀이 과정을 개선할 수 있도록 돕는 피드백을 제공할 수 있어.효율적인 학습:보상모델을 사용하면 초기 모델이 생성한 풀이과정의 질이 상대적으로 낮더라도, 그 과정에서 잘못된 부분을 피드백을 통해 교정하면서 점진적으로 개선할 수 있어. 직접적으로 풀이

익명(211.224) 2024-09-18 12:22

답글

과정을 학습시키는 것보다 이 방법이 더 효율적일 수 있어. 검증된 데이터의 중요성: 보상모델을 통해 검증된 풀이과정은 이미 신뢰성이 높다고 평가된 데이터이므로, 모델이 이러한 검증된 예제를 학습함으로써 더 나은 성능을 보일 수 있어. 초기에는 완벽한 풀이과정을 생성하기 어려운 모델이 검증된 데이터를 통해 점차적으로 학습하는 것이 효과적이야. 복잡한 문제 해결: 문제 풀이 과정이 복잡할 경우, 모델이 직접적으로 올바른 풀이를 학습하기보다, 먼저 잘 검증된 풀이과정을 보상모델을 통해 학습하고, 그 과정에서 더 많은 학습과 개선을 할 수 있어. 결론적으로, 보상모델을 사용함으로써 모델이 점진적으로 정확한 풀이과정을 학습하고 개선할 수 있는 기회를 제공하며, 보다 효과적으로 성능을 향상시킬 수 있어.

익명(211.224) 2024-09-18 12:22

답글

디퓨전 학습과정도 매번 denoising step마다 loss 줘서 학습시킴 ㅇㅅㅇ 그래서 본문에 적은 보상모델이렁 디퓨전이랑 차이를 모르겠다고 한거고

익명(39.7) 2024-09-18 12:26

답글

제가 덧글에 적은 보상모델 사용이유는 그냥 개소린가요?

익명(211.224) 2024-09-18 12:28

답글

아 혹시 올바른 풀이를 모델에 바로학습시키는게 열등한 이유가 "틀린 풀이"가 뭔지에 대한 자료가 없기때문아닐까요 링크의 논문에는 보상모델이 "긍정,부정,중립"의 세가지 판정을 내리도록 훈련된다는데요 그러니까 "틀린"풀이에 대한 피드백이 보상모델이 할수있는 일인데 반해 그냥 모델에 옳은풀이과정을 학습시키면 틀린게 뭔지는 알수없잖아요

익명(211.224) 2024-09-18 12:45

답글

즉 보상모델은 어떤게 좋은거고 어떤게 덜좋은건지를 판정할수 있으니 그냥 정답만 주구장창 학습시킨것보다 낫다는거죠

익명(211.224) 2024-09-18 13:14

답글

모델에 바로 자료를 학습시키는 방식과 보상함수의 판정을 거쳐 학습시키는 방식은 성능 차이가 있을 수 있어. 몇 가지 중요한 차이점을 보면: 바로 학습시키는 방식: 성능 장점: 정답이 명확하고 그 데이터를 바로 사용할 수 있는 경우, 학습이 빠르고 효율적이야. 데이터와 정답이 정확할수록 모델이 빠르게 최적화될 수 있어. 성능 단점: 정답이 명확하지 않거나 복잡한 문제에서는 한계가 있어. 이 방식은 창의적인 해결책을 찾기 어렵고, 새로운 상황에 대한 일반화 능력이 떨어질 수 있어. 보상함수를 통한 학습 방식: 성능 장점: 보상모델은 더 넓은 범위의 데이터를 활용할 수 있고, 다양한 상황에 대한 적응력이 뛰어나. 보상 모델이 "무엇이 좋은지"를 심층적으로 이해하게 되면, 직접적인 학습보다 더 유연하게 문제

익명(211.224) 2024-09-18 14:41

답글

를 해결할 수 있어. 성능 단점: 학습이 느릴 수 있고, 보상함수가 부정확하거나 잘못 정의되면 모델 성능이 떨어질 수 있어. 하지만 장기적으로 더 복잡한 문제 해결에 강점을 보여. 결국 정답이 명확한 문제에서는 바로 학습시키는 게 성능이 좋고, 복잡하거나 다양한 해답이 존재하는 문제에서는 보상모델을 사용하는 방식이 더 나은 성능을 보여줄 수 있어.

익명(211.224) 2024-09-18 14:42

답글

그러니까 모델에 직접학습시키는건 그 학습시킬 자료의 양에 의해서 성능이 나오는데 보상함수로 하면 보상함수를 학습시키는데 쓴 자료의 양보다 더많은 자료를 보상함수로 판정내릴수 있음

익명(211.224) 2024-09-18 14:47

1. Noise를 어떻게 정의할 것인가 -> 원본 data와 MSE로 정의 한다했을때 보상모델이 그걸 학습할 수 있을까? -> 그냥 그럴바엔 classifer를 학습해서 CFG를 쓰는게 나을 것 같음 2. Generative model이 내놓은 모델을 다시 training으로 사용한다 했는데 실제로 self-distillation이라는 방식이 있음

익명(58.238) 2024-09-18 11:25

답글

CFG가 아니라 CG

익명(58.238) 2024-09-18 11:25

답글

전 인공지능에 대한 지식이 없는 일반인이라서 이해가 안되네요

익명(211.224) 2024-09-18 11:26

답글

GPT한테 diffusion 가르쳐달라고 해봐

익명(58.238) 2024-09-18 11:31

답글

제가 이해한바는 노이즈가 심한 그림을 입력에 놓고 출력에 노이즈가 한단계 덜한 그림을 정답으로 놓고 역전파한다고 알고있어요

익명(211.224) 2024-09-18 11:32

focalors(pytorch) 2024-09-18 14:01

답글

익명(211.224) 2024-09-18 14:02

일단 차단했으니 딥러닝 공부하고나서 생각을 정리하고 다시 오세요~

지잡컴공(wlwkqzjarhd) 2024-09-19 11:18

[일반] 글 막싸대서 죄송한데 이것도 봐주세요

댓글 37

[일반] 글 막싸대서 죄송한데 이것도 봐주세요

댓글 37

다른 게시글

제 생각 평가좀 해주세요(보상모델이용)

이런 방식으로도 그림그리는 인공지능을 만들수있을까요

ultralytics yolo <~~~핵쓰라고 만든거임?

BatchNormalization 쓴게 이렇게 달라질 일인가?

고딩인데 ai로 밥벌어먹으려면 어케해야됨

성능 어떻게 잘올림

cuda로 환경 옮겼는데 체감이 안됨

CNN이나 ViT로 훈련시켜보는데 정확도가 안높아짐 ㅠㅠ

리뷰 수준 낮아진거 본인 논문 리버털하느라 그런거 맞는듯

코딩은 확실히 좋아