잼민이한테 음성인식 시키면 자막 자체는 플래시나 플래시 라이트 써도 위스퍼 같은 소형 로컬 모델과는 비교가 안될 정도로 잘 뽑아주는데
(물론 번역으로 치면 직역이 아니라 의역을 하는 경향이 있어서, 시스템 프롬프트를 어떻게 넣어도 말이 되게 단어나 문장을 맘대로 바꾸거나 서로 다른 타이밍에 말한 내용이 한데 뒤섞이는 문제가 있음.)
화자 구분이나 타임스탬프 찍는 그런 건 ㄹㅇ 3.1프로 써도 못할 때가 있단 말임?
(보통 위에서 말한 긴 문장 축약하거나 뒤섞는 과정에서 찐빠나서 타임스탬프가 1분씩 앞당겨지거나 말하는 순서가 바뀌고, 그게 또 음성파일 길이랑 안 맞으니까 다시 환각으로 가짜 문장 지어냄.)
이게 결국 멀티모달이라 해도 근본은 llm이라 그런 건데,
qwen3는 멀티모달도 llm에 음성 모델 붙인 거고
음성 모델도 음성인식 화자구분 타임스탬프 찍는 게 다 별개의 모델로 나뉘어 있어서
qwen3 tts(텍스트로 음성 생성)에서 화자 임베딩하는 것만 빼다가 화자구분 만들고
qwen3 asr(음성으로 자막 생성)에서 타임스탬프 찍는 것만 빼다가 잼민이가 생성한 자막에 타임스탬프만 다시 찍는 것도 가능함.
근데 이런 누더기 골렘식 모델의 한계인지 로컬 모델의 한계인지 몰라도
qwen3 asr은 공식적으로는 6분까지 지원한다는데 로컬 기준 3분만 넘어가도 자막이랑 타임스탬프가 망가져서
(웹에서 qwen3 asr flash나 3.5omni쓰면 훨씬 긴 시간 음성도 타임스탬프까지 3.1pro급으로 정확하게 잘 뽑아준다고 하긴 하는데 이건 내부적으로 어떻게 되어있는지 모르니까.)
whisper(긴 음성도 실제로는 30초씩 처리됨)처럼 30초 ~ 3분 정도로 음성파일 분할해서 파이프라인 돌려야 한국어나 일본어 기준 럭키 위스퍼급 성능이 나오는데
그래서 걍 잼민이 api로 3분 단위로 분할한 음성으로 생성한 자막을 qwen3로 타임스탬프만 다시 찍으려니까
앞서 말한 잼민이의 축약 생략 재구성 환각 때문에 딸깍으로 구현하는데에는 한계가 있어서
요즘은 걍 포기하고 ai 스튜디오에서 3.1프로로 자막 생성 + 초단위 타임스탬프 찍게 하는 중...
- 이상한 누나
똑똑한걸.
gemini api 문서 같은 거 보면 구글도 분명 llm에 음성 임베딩 모델 붙인 게 다가 아닌 것 같은데(화자구분이나 화자의 톤 타임스탬프 같은 걸 구조화된 출력으로 뱉을 수 있다고 명시되어있음) 3분씩 잘라서 요청해도 플래시나 플래시 라이트는 타임스탬프도 못 찍고 프로도 초단위 타임스탬프는 잘 찍지만 화자구분은 일관적이지 않고 자꾸 문맥으로 화자 때려맞추다 보니 일괄 변경도 못하는 거 보면 ㄹㅇ 뭔가뭔가임...
@보미코 그냥 붙인건 아니지만 기반이 llm에 다른 모델 출력 붙인 것 자체는 맞는것같다고 생각함 써보니까 그렇던데 내가 유튜브 영상으로 넣어줘서 그런가?