(AI 그림챈에 동일한 글이 있는데, 불펌이 아니라 둘 다 작성자가 나임)


24b0d121e09c28a8699fe8b115ef046f5d4a9e9cae



저는 제미니의 새로운 이미지 모델(나노-바나나)이 실제로는 단일 프레임을 생성하는 비디오 모델이라고 100% 확신합니다. 즉, 세계 모델입니다. 거의 완벽한 정확도로 물체를 회전시킬 수 있습니다. 특히 이 이미지는 반사 때문에 제가 시도해 본 다른 모든 모델을 혼란스럽게 합니다. (*원문 트윗 자동 번역)



이 트윗 타래에 예시들이 몇 개 있는데, 좀 흥미로워서 나도 몇 개 시도해봄.


24b0d121e09c28a8699fe8b115ef046b6a6c90372a



위는 NAI로 뽑은 실험 짤 원본 (NAI 갖고 노는 챈러들은 별로 놀랍지 않겠지만 이미 순수 프롬만으로 이 정도 뽑는건 가능함)




이제 여기에 나노바나나를 적용. 

->: Generate an image of this character rotated 90 degrees around the z (up) axis in world space

("90도 회전")


24b0d121e09c28a8699fe8b115ef0468e4a8e2b963



솔직히 빛 처리 보면 개쩌는데, 다들 하도 쓰다보니 눈이 높아져서 이 정도는 '흠.. 그정돈가?' 싶음.




근데 비디오 학습 기반 모델이라는 위 주장의 진가는 다음 프롬프트에서 드러남.

"사실 이 이미지는 비디오고, X 프레임의 순간 이미지였는데 Y 프레임 이미지 생성해줘"


24b0d121e09c28a8699fe8b115ef046b686e913f2b


다시 원본으로부터,

->: Generate this image of video. Assume this 15-th frame and generate 25-th frame

("10 프레임 뒤 이미지")


24b0d121e09c28a8699fe8b115ef046b6e6f983425


->: Generate this image of video. Assume this 15-th frame and generate 40-th frame

("25 프레임 뒤 이미지")


24b0d121e09c28a8699fe8b115ef046b6c6f953022


->: Generate this image of video. Assume this 15-th frame and generate 55-th frame

("40 프레임 뒤 이미지")


24b0d121e09c28a8699fe8b115ef046b6e66953520


당연하지만 위 한 줄 프롬 말고, 어떤 가이드도 안 줬음. 그리고 질문을 언제 던져도 프레임별 일관성이 유지됨.


다만 너무 뒤의 프레임을 요청하면 뜬금없어지고 망가지는것까지 장기 기억 젬병인 Wan 등의 비디오 생성 모델이랑 똑같음.

이건 사실상 Veo 3의 단일 프레임 (편집) 모델이라고 불러야 하지 않나 싶기도?




그래서 결론은, 나노바나나의 이 일관성 유지 능력이 사실 어디 뭔가 외계 기술이나 비법으로 튀어나온게 아니라 엄청난 유튜브+비디오 데이터셋의 일관된 프레임 시각 지능에서 왔다고 생각함 (그래서 사실 편집보다 창조 기술은 기대보다 좀 후달리는듯 ㅠㅠ)


이미 다른 Flux 등 범부 모델 개발자들도 지금쯤 이걸 깨닫고 무지성 비디오 데이터셋 노동을 깎는 중이 아닐까?