pix2pix처럼 걍 단순히 input image에 condition image를 붙이는 것처럼 그런거 있나? 근데 그러면 입력 채널이 6이되어서 처음에 autoencoder 훈련시킬 때 문제될 것 같은데 이것도 모델 fine-tuning 좀 해야되나?
아님 latent diffusion 코드 보면 cross attentio쓰는 conditional model로 활용할 때 textembedder같이 condition 전처리하는 인코더같은거 있던데 거기서 image는 뭘 써야되냐? clip말고 없던데 clip은 text하고 같이 쌍으로 쓰는거잖아.. 설마 내가 따로 만들어야됨?
아님 걍 Palette라는 pix2pix 기반 디퓨전있던데 autoencoder만 따로 훈련시키고 Palette fine tuning해서 써야되나 모르겠네. Palette 걔는 DDIM 샘플링도 없어서 내가 따로 추가해줬는데..
latent diffusion도 context map condition 있지 않음? 비슷할 것 같은데
한 번 알아봐야겠다 고마워~
Controlnet 계열이 니가 생각하는거에 부합하는지 모르겠네