2bbcde32e4c1219960bac1e75b83746f75e1e3e9dcdd607f1ca06980a6152df20297a6f688687dab68d285a928e7bdb5

멀티모달로 영상 입력을 받는 모델이야 비전 인코더(ViT)에 넣어서 2fps 수준에 각 프레임 작은 타일로 자른다음에 압축하고 또 인접 타일끼리 합치고 대강 계속 자르고 줄여도 각 프레임에서 정보만 어떻게 잘 추출해서 밑단 LLM에 넣을 수 있으면 족한데
영상 생성이 2fps로 나오면 일단 엠창이라 아무리 못해도 30fps는 나와야 하니 일단 15^2 해서 225배임
게다가 스테이블 디퓨전 몇십번 반복해야 하니 일단 프레임 하나 만드는 것도 수고가 텍스트 생성이랑은 비교가 안 됨
보통 클로드 gpt 이런 챗봇 도는 건 한 유저 대답해주는 것보다 훨씬 크게 메모리 잡아놔서 수십명 입력 동시 처리 가능한데 이건 한 생성만으로 VRAM peak가 몇십기가는 가볍게 뜨느라 순수하게 GPU 하나당 한 입력 수준일 거임
그럼 사람 들어오는만큼 서버 달아야 한단 건데 솔직히 영업용 미끼라면 모를까 상업용......
이런거 혼자 하라고 로컬ai 있는 거겠죠 사실