pix2pix처럼 걍 단순히 input image에 condition image를 붙이는 것처럼 그런거 있나? 근데 그러면 입력 채널이 6이되어서 처음에 autoencoder 훈련시킬 때 문제될 것 같은데 이것도 모델 fine-tuning 좀 해야되나?

아님 latent diffusion 코드 보면 cross attentio쓰는 conditional model로 활용할 때 textembedder같이 condition 전처리하는 인코더같은거 있던데 거기서 image는 뭘 써야되냐? clip말고 없던데 clip은 text하고 같이 쌍으로 쓰는거잖아.. 설마 내가 따로 만들어야됨?

아님 걍 Palette라는 pix2pix 기반 디퓨전있던데 autoencoder만 따로 훈련시키고 Palette fine tuning해서 써야되나 모르겠네. Palette 걔는 DDIM 샘플링도 없어서 내가 따로 추가해줬는데..