안녕하세요
저는 인공지능에 대해 아는게 없고 그냥 다른갤에서 논문한개를 요약한걸 봤는데
거기서는 보상모델이라는걸로 훈련시키려는 모델을 훈련시키더라고요
밑에글에 이미 이게 그림그리는 모델의 원리라고 하셨는데 제가 좀더 생각한게 있는데
그걸 평가해주세요
-----------------------------------------------------------------------------------------------
1. 학습시키려는 그림에 노이즈를 가합니다
2. 노이즈가 심한 그림은 보상모델이 1점을 주도록 학습 시킵니다
3. 노이즈가 좀더 덜한 그림은 보상모델이 2점을 주도록 학습시킵니다
4. 노이즈가 줄어들수록 보상모델이 높은점수를 주도록 학습시킵니다
5. 이렇게 학습한 보상모델로 그림그리는 모델이 내놓는 값에 점수를 매깁니다
6. 점수를 높게받는 값을 그림그리는 모델이 학습합니다
7. 반복
--------------------------------------------------------------------------------------------------
이게 이미 있다는 말씀들이신가요?
1. 보상 모델이 1~n의 정수 점수값을 주는 부분에서 이미 실수 값의 점수를 주는 기존 모델보다 열등함. 2. 원본그림 + 노이즈(그림그리는 모델이 학습) -> 조작된 이미지 -> 점수 라고 볼때 조작된 이미지의 노이즈가 심할수록 좋은 모델임 참고로 2번이 이해 안되면 뉴비한테 친절해야 된다는 걸 떠나서 이 갤에서 질문하기엔 힘든 수준이니까 그냥 챗지피티 한테 물어보셈
노이즈가 덜할수록 점수를 더 주게 했는데요?
혹시이게 디퓨전처럼 노이즈가 심한그림에는 낮은점수를 주고 노이즈가 줄어들수록 높은점수를 줘서 그림그리는모델을 훈련시키는것도 되지않을까 ChatGPT의 말: ChatGPT 네, 디퓨전 모델처럼 노이즈가 많은 그림에는 낮은 점수를 주고, 노이즈가 줄어들수록 높은 점수를 주는 방식도 충분히 가능합니다! 이 방식은 그림의 진행 과정을 평가하는 것과 비슷한 개념이야. 디퓨전 모델은 기본적으로 노이즈를 점차 제거하면서 선명한 이미지를 생성하는 과정을 거치는데, 너의 아이디어처럼 노이즈가 많은 초기 이미지에는 낮은 점수를 주고, 노이즈가 줄어들수록 더 높은 점수를 주면, 모델이 노이즈 제거 과정에서 점진적으로 더 좋은 이미지를 생성하도록 학습할 수 있어. 이 방식이 유용한 이유: 노이즈 제거 학습 강화: 모델이 노이
즈를 점차 줄이는 과정을 중시하게 돼서, 더 정교한 이미지를 만드는 데 집중하게 돼. 점진적 학습: 모델이 한 번에 완성된 이미지를 만들려고 하기보다는, 단계적으로 노이즈 제거를 하면서 이미지를 개선하는 방법을 배우게 돼. 강화학습: 보상모델이 노이즈가 적을수록 더 높은 점수를 주니까, 모델은 노이즈를 최대한 줄이려는 방향으로 학습되겠지. 그래서 이 방식은 디퓨전 모델의 노이즈 제거 과정을 효율적으로 학습시키는 데 매우 효과적일 수 있어!
니가 얘기하는 노이즈가 뭔데
노이즈를 주는 단계가 실수처럼 연속적이지 않으니까 당연히 정수값을 주는거아닌가요
노이즈는 랜덤인데 왜 연속적이지 않음?
그러니까 제가 노이즈를 언급한 이유는 사실완성되있는 그림을 보상모델에다 학습, 긍정판단을 내리도록하면초기에는 그림그리는모델이 많이 부족한 그림을 그릴텐데 그런 경우에도 보상으로 유도가 가능해야한다고 생각해서그림그리는 과정을 보상모델에게 학습시키고 과정이 진행될수록 보상을 주도록 하는게 목표인데그림그리는 과정은 구하기가 어려워서그림이 노이즈가 심한상태였다가 노이즈가 줄어드는 과정속에서 노이즈가 줄어든 그림을 그림그리는 모델이 내놓을수록 보상을 높게주도록 해서 하는거에요
그림 그리는 모델이 아니라 그림 그리는 "과정을 알려주는" 모델이라고?
보상모델에 그림그리는 과정(실제로 그림그리는 과정은 구하기 어렵기때문에 과정을 노이즈가 줄어드는 과정으로 대체함)을 입력하고 보상을 노이즈가 작을 수록 큰 보상을 주도록 보상모델을 학습시키고 그림그리는 모델이 어떤 출력을 내놓으면 저 보상모델로 평가해서 점수높은 출력을 그림그리는 모델에 학습시킨다는거예요
그럼 그냥 강화 학습적으로 생각하면 스테이트t-1 -> 그림 생성 -> 원본그림 이랑 픽셀 비교 -> 거리가 줄었으면 +1점 -> 스테이트 t-1 ... 이런식으로 그냥 하면 되잖아
그리고 노이즈가 뭔지 명확히 좀 해줬으면... 아무것도 없는 까만 화면은 노이즈임? 노이즈가 아님? 모든 값이 (0,0,0)이고 분산도 0인데?
오 원본그림이랑 픽셀비교라는게 있는거군요..
아 그러면 k스텝 이상의 과정을 내놓는 것도 가능하겠네 아이디어 야맙다 ㅅㄱ
님이 말씀하신 픽셀비교라는 아이디어는 님이낸건데 왜 저한테 야맙다라고 하시는거죠
너랑 얘기하면서 도출한거잖아
근데 그건 그림 한장에 대해서 그림을 따라그리는게 전부아닌가요
보상모델은 "무엇에" 보상을 줄지를 정해야하는데 님처럼 픽셀차이가 적으면 보상을 준다고 했을때 "픽셀차이가 적은 그림"은 엄청나게 많을수 있잖아요