(AI 그림챈에 동일한 글이 있는데, 불펌이 아니라 둘 다 작성자가 나임)
저는 제미니의 새로운 이미지 모델(나노-바나나)이 실제로는 단일 프레임을 생성하는 비디오 모델이라고 100% 확신합니다. 즉, 세계 모델입니다. 거의 완벽한 정확도로 물체를 회전시킬 수 있습니다. 특히 이 이미지는 반사 때문에 제가 시도해 본 다른 모든 모델을 혼란스럽게 합니다. (*원문 트윗 자동 번역)
이 트윗 타래에 예시들이 몇 개 있는데, 좀 흥미로워서 나도 몇 개 시도해봄.
위는 NAI로 뽑은 실험 짤 원본 (NAI 갖고 노는 챈러들은 별로 놀랍지 않겠지만 이미 순수 프롬만으로 이 정도 뽑는건 가능함)
이제 여기에 나노바나나를 적용.
->: Generate an image of this character rotated 90 degrees around the z (up) axis in world space
("90도 회전")
솔직히 빛 처리 보면 개쩌는데, 다들 하도 쓰다보니 눈이 높아져서 이 정도는 '흠.. 그정돈가?' 싶음.
근데 비디오 학습 기반 모델이라는 위 주장의 진가는 다음 프롬프트에서 드러남.
"사실 이 이미지는 비디오고, X 프레임의 순간 이미지였는데 Y 프레임 이미지 생성해줘"
다시 원본으로부터,
->: Generate this image of video. Assume this 15-th frame and generate 25-th frame
("10 프레임 뒤 이미지")
->: Generate this image of video. Assume this 15-th frame and generate 40-th frame
("25 프레임 뒤 이미지")
->: Generate this image of video. Assume this 15-th frame and generate 55-th frame
("40 프레임 뒤 이미지")
당연하지만 위 한 줄 프롬 말고, 어떤 가이드도 안 줬음. 그리고 질문을 언제 던져도 프레임별 일관성이 유지됨.
다만 너무 뒤의 프레임을 요청하면 뜬금없어지고 망가지는것까지 장기 기억 젬병인 Wan 등의 비디오 생성 모델이랑 똑같음.
이건 사실상 Veo 3의 단일 프레임 (편집) 모델이라고 불러야 하지 않나 싶기도?
그래서 결론은, 나노바나나의 이 일관성 유지 능력이 사실 어디 뭔가 외계 기술이나 비법으로 튀어나온게 아니라 엄청난 유튜브+비디오 데이터셋의 일관된 프레임 시각 지능에서 왔다고 생각함 (그래서 사실 편집보다 창조 기술은 기대보다 좀 후달리는듯 ㅠㅠ)
이미 다른 Flux 등 범부 모델 개발자들도 지금쯤 이걸 깨닫고 무지성 비디오 데이터셋 노동을 깎는 중이 아닐까?
역시 지니3의 일부였나..
일리있네
근데 이미지 2개합쳐달라고 하면 각 ㅂ부분이 이상하게 분리되서 합쳐지는건 왜그런걸까
wow
잼민이가 공간도 인식한다는 건가? 아직 영상이나 사진 보여주면 가끔 찐빠내긴 하던데
생성 자체는 사실 imagen4랑 다를 거 없고 편집 성능 늘리기 위해 다른 모델들과 달리 영상 데이터 많이 활용한 느낌이 들긴함 일반적으로 다른 편집 AI가 잘하는 몇가지를 쉽게는 못하고 (그림체 바꾸기나 실사화) 프롬프팅 통해서 좀 귀찮게 돌아서 가야 하는 것도 그렇고
저거 나도 나오자마자 바로 시도해봤음 비디오로 학습한 건지 어떤 건지는 우리가 알 수 없지만 다음 프레임을 예측하는 월드 모델은 확실함
원본짤 프롬프트 어떻게 됨?
캐릭터 프롬 분리도 따로 되있고 네거프롬까지 번잡하고 너무 기네. AI 그림챈에 올린 글로 가서 다운받던지 exif 뷰어로 보셈. 보통 그냥 exif 살리고 다 올림.
@dd(84.170) 고마워