빙챗에 물어봐도 계속 똑같은 얘기만 나와서 여기 왔는데요
예를들어 프롬프트가 "춤추는 상어"라면
춤추는 이미지와 상어이미지를 불러오는건가요?
그다음에 춤추는 것과 상어를 어떻게 합체시키나요?
사람이 몸을 흔드는것에 상어가 몸을 흔드는것을
넣는 원리가 뭐죠?
우선 무엇이 춤추고 있다 라는걸 알아야 할것같은데요
사람이 춤추는 사진을 보고
"사람이 춤춘다"와 "사람"을 인식하고
"사람"자리에 "상어"를 대입할줄 알아야 할거같은데
사람이 서있는 모양과 상어를 세로로 세운 모습이 비슷하다는걸 어떻게 알죠?
아니면 상어가 가로로 있는게 적당하다고 생각할수도 있는거 같고
구체적으로 상어의 포즈를 어떻게 결정하죠?
사람은 춤출때 몸의 부위를 흔들잖아요
그럼
사람이 춤추는 사진을 보고
"사람이 춤춘다", "사람", "팔다리를 흔든다", "팔다리"
이런걸 인식해야할거같고
상어에게서 팔다리에 해당하는게 무엇인지는 어떻게 알죠?
사람은 상어의 지느러미가 사람의 팔다리와 유사하다는걸
어떻게 알죠?
그냥 돌출되어있는 기관이니까?
아니면 여러 사진속에서 지느러미가 여러 모양으로 움직이는걸 보고
사람 팔다리도 여러 모양으로 움직이니까
그래서 지느러미와 팔다리가 유사하다고 생각하나요?
이렇게 해서
지느러미를 사람의 팔다리와 유사하다고 보고
사람은 춤출때 팔다리를 움직이니
상어의 지느러미가 움직이는 사진을 가져오는건가..
이정도로 자세하게 설명했으니
제가 무엇을 궁금해하는지는 아실거라 생각합니다
부디 쉬운 답변을 부탁드립니다
- dc official App
보통 2D상의 이미지를 가상의 3D 좌표로 만든 다음에 거기에 덧붙이는 방식일꺼임 3D 좌표로 만드는건 2d to 3d depth map 기술이 들어감
근데 이건 몇년전 기술이고 요즘에는 어떻게하는지 모르겠네 ..
사람이 서서 팔다리를 흔드는 것과 상어가 서서 팔다리를 흔드는것 이거를 어떻게 유추해서 만드나요 - dc App
나라면 3D 상어 모델 (사람의 뼈(Bone) 구조가 포함되어있는) 걸 사용할거같음 그러면 앞서 이야기했던 가상의 3D 좌표로 만든 Bone 구조에 이식 시킬 수 있거든
우선 이렇게라도 인식 시켜놓은다음에 사람의 춤을 학습 시킨 모델로 추론 시키면 원하는 결과 나올듯 다만 지금 이렇게 학습 시킬 수 있는 관련된 ai가 있는진 모르겠네
CLIP을 한 번 찾아보고 오세요
상어나 춤추다 같은 것들을 따로 불러와서 결합하는 것이 아니라 모델이 알아서 처리하는 것이라고 보면 됨. 텍스트에서 이미지로 변환하는 디퓨전 모델은 이미지와 그 이미지에 대한 텍스트를 사용해서 학습되는 것이고, 학습 과정에서 사람이나 상어, 춤추다 같은 개념에 대해서 모델 내에 어떤 표상이 형성되는 것임. 이 표상이 서로 다른 개념과 결합될 수 있는 형태로 구조화 되어있는 것. (사람이 춤추다를 재조합해서 상어가 춤추다가 되었을 때도 의미가 있도록.) - dc App