숨터

pix2pix처럼 걍 단순히 input image에 condition image를 붙이는 것처럼 그런거 있나? 근데 그러면 입력 채널이 6이되어서 처음에 autoencoder 훈련시킬 때 문제될 것 같은데 이것도 모델 fine-tuning 좀 해야되나?

아님 latent diffusion 코드 보면 cross attentio쓰는 conditional model로 활용할 때 textembedder같이 condition 전처리하는 인코더같은거 있던데 거기서 image는 뭘 써야되냐? clip말고 없던데 clip은 text하고 같이 쌍으로 쓰는거잖아.. 설마 내가 따로 만들어야됨?

아님 걍 Palette라는 pix2pix 기반 디퓨전있던데 autoencoder만 따로 훈련시키고 Palette fine tuning해서 써야되나 모르겠네. Palette 걔는 DDIM 샘플링도 없어서 내가 따로 추가해줬는데..

latent diffusion도 context map condition 있지 않음? 비슷할 것 같은데

익명(117.111) 2024-09-07 17:13

답글

한 번 알아봐야겠다 고마워~

익명(211.36) 2024-09-07 17:19

Controlnet 계열이 니가 생각하는거에 부합하는지 모르겠네

익명(128.227) 2024-09-08 04:18

[❓질문] latent diffusion을 i2i로 활용한 모델이 있나?

댓글 3

[❓질문] latent diffusion을 i2i로 활용한 모델이 있나?

댓글 3

다른 게시글

트랜스포머가 디퓨전보다 더 어렵게 느껴짐

컴공과 학생이 선배님에게 소개하는 TDA

vram에 있는 텐서 matmul 하는데 cpu 점유율이 올라감

깊스추출이 뭐냐

수학 베이스 탄탄하면 딥러닝 공부 바로 딥러닝부터 시작하면 됨?

디지털 트윈 성과가 나오기 시작하는 네이버

딥러닝 음성 분야

pytorch에서 jax/flax로 넘어가는 거 고민 중인데

이 기계학습 책 읽어본사람 얼마나 됨?

[평가] 딥러닝 공부 로드맵 평가가능한가요??