음........음...........아닐 것 같음.
그동안 챗봇이 추론에 약했던 건, 기존에 학습한 언어데이터에는 추론의 과정을 담고 있는 언어데이터가 적어서...라는 말이 있었음.
즉, 3+2=5 라는 걸, 언어모델은 3이랑 2랑 있으면 보통 5가 오더라. 같은 식으로 학습하거든. 아주 무식하게 말하면.
그런데 o1은 수학 해설지처럼 각 과정을 디테일하게 작성하고 그걸 학습한 걸로 암. 그러니 언어, 추론 파트에서 성능이 올라간거지. 물론 다른 기술도 더 썼겠지만.
그런데 그림은....이런 추론 과정....같은 게 없지 않나.
그리고 손가락의 경우엔, 우리는 손가락을 이해하지만 이미지를 학습할 땐, 각도에 따라 너무 다양한 손가락 모양이 있어서 잘 못 잡는다고 들음. 이건 로라 같은 거 써서 교정하는
익명(175.206)2024-09-29 02:19:00
답글
것 같던데, o1의 개선방식이랑은 좀....벗어난 거 아닐까?
익명(175.206)2024-09-29 02:20:00
같은 캐릭터의 다양한 동작이 가능할듯..?
ㅇㅅㅇ(220.78)2024-09-29 02:29:00
캐릭터의 일관성 유지, 명암이나 투시 개념, 다양한 기법과 인체에 대한 명확한 인지가 가능해진단 가정하에 더 좋은 그림이 나오곘지
손가락 칼같이 5개만 그림
https://rl-diffusion.github.io/
이런거있음
오호 - dc App
음........음...........아닐 것 같음. 그동안 챗봇이 추론에 약했던 건, 기존에 학습한 언어데이터에는 추론의 과정을 담고 있는 언어데이터가 적어서...라는 말이 있었음. 즉, 3+2=5 라는 걸, 언어모델은 3이랑 2랑 있으면 보통 5가 오더라. 같은 식으로 학습하거든. 아주 무식하게 말하면. 그런데 o1은 수학 해설지처럼 각 과정을 디테일하게 작성하고 그걸 학습한 걸로 암. 그러니 언어, 추론 파트에서 성능이 올라간거지. 물론 다른 기술도 더 썼겠지만. 그런데 그림은....이런 추론 과정....같은 게 없지 않나. 그리고 손가락의 경우엔, 우리는 손가락을 이해하지만 이미지를 학습할 땐, 각도에 따라 너무 다양한 손가락 모양이 있어서 잘 못 잡는다고 들음. 이건 로라 같은 거 써서 교정하는
것 같던데, o1의 개선방식이랑은 좀....벗어난 거 아닐까?
같은 캐릭터의 다양한 동작이 가능할듯..?
캐릭터의 일관성 유지, 명암이나 투시 개념, 다양한 기법과 인체에 대한 명확한 인지가 가능해진단 가정하에 더 좋은 그림이 나오곘지