멀티모달로 영상 입력을 받는 모델이야 비전 인코더(ViT)에 넣어서 2fps 수준에 각 프레임 작은 타일로 자른다음에 압축하고 또 인접 타일끼리 합치고 대강 계속 자르고 줄여도 각 프레임에서 정보만 어떻게 잘 추출해서 밑단 LLM에 넣을 수 있으면 족한데
영상 생성이 2fps로 나오면 일단 엠창이라 아무리 못해도 30fps는 나와야 하니 일단 15^2 해서 225배임
게다가 스테이블 디퓨전 몇십번 반복해야 하니 일단 프레임 하나 만드는 것도 수고가 텍스트 생성이랑은 비교가 안 됨
보통 클로드 gpt 이런 챗봇 도는 건 한 유저 대답해주는 것보다 훨씬 크게 메모리 잡아놔서 수십명 입력 동시 처리 가능한데 이건 한 생성만으로 VRAM peak가 몇십기가는 가볍게 뜨느라 순수하게 GPU 하나당 한 입력 수준일 거임
그럼 사람 들어오는만큼 서버 달아야 한단 건데 솔직히 영업용 미끼라면 모를까 상업용......
이런거 혼자 하라고 로컬ai 있는 거겠죠 사실
학습비용 제외하고 선형 어텐션 쓰고 vae 압축률 높은거 쓰고 step 수 distill해서 줄이고 요 썰고 저 썰고 해도 5초당 몇백원이 나와버리니
소라로 sns 만든단 개소리가 지금봐도 웃기군 마케팅으로서의 의미도 없었던 것 같은데
무슨소린지모르겠어 파타퐁 - dc App
글고 보니 이 양반 컴공이었군...
초등학생도 이해할 수 있게 세줄로 요약해주세요