옛날엔 손가락 발가락도 제대로 못그리고 글자는 걍 다 지렁이였잖아요
근데 요즘 손 발은 로컬 모델도 잘그리는 편이고 gpt 보면 글자도 완벽한 수준이던데
이것도 걍 양질의 데이터 많이 넣으니 잘됐다 이건가요 아님 뭐 또 신박한 기법이 들어간건가요?
옛날엔 손가락 발가락도 제대로 못그리고 글자는 걍 다 지렁이였잖아요
근데 요즘 손 발은 로컬 모델도 잘그리는 편이고 gpt 보면 글자도 완벽한 수준이던데
이것도 걍 양질의 데이터 많이 넣으니 잘됐다 이건가요 아님 뭐 또 신박한 기법이 들어간건가요?
약간 예전에 나온 vit랑 비슷하게 transformer+autoregressive 방법으로 LLM에 네이티브하게 내장시키니 최신 LLM의 문맥파악 능력이 이미지생성에도 생긴것같음.
애초에 트랜스포머기반인데 못하는게 말이안됨. 모든 요소를 다계신하는데
잘못하는데 아직
?
이미지 생성 공부해봤는데 SD3나 flex도 아직 글자가 좀 약점 아닌가?