3fb8c32fffd711ab6fb8d38a4683746f7aca95c78c5f58c77af153012f76074cce71209febdd88a480b834c8d4

잼민이한테 음성인식 시키면 자막 자체는 플래시나 플래시 라이트 써도 위스퍼 같은 소형 로컬 모델과는 비교가 안될 정도로 잘 뽑아주는데

(물론 번역으로 치면 직역이 아니라 의역을 하는 경향이 있어서, 시스템 프롬프트를 어떻게 넣어도 말이 되게 단어나 문장을 맘대로 바꾸거나 서로 다른 타이밍에 말한 내용이 한데 뒤섞이는 문제가 있음.)

화자 구분이나 타임스탬프 찍는 그런 건 ㄹㅇ 3.1프로 써도 못할 때가 있단 말임?

(보통 위에서 말한 긴 문장 축약하거나 뒤섞는 과정에서 찐빠나서 타임스탬프가 1분씩 앞당겨지거나 말하는 순서가 바뀌고, 그게 또 음성파일 길이랑 안 맞으니까 다시 환각으로 가짜 문장 지어냄.)

이게 결국 멀티모달이라 해도 근본은 llm이라 그런 건데,

qwen3는 멀티모달도 llm에 음성 모델 붙인 거고

음성 모델도 음성인식 화자구분 타임스탬프 찍는 게 다 별개의 모델로 나뉘어 있어서

qwen3 tts(텍스트로 음성 생성)에서 화자 임베딩하는 것만 빼다가 화자구분 만들고

qwen3 asr(음성으로 자막 생성)에서 타임스탬프 찍는 것만 빼다가 잼민이가 생성한 자막에 타임스탬프만 다시 찍는 것도 가능함.


근데 이런 누더기 골렘식 모델의 한계인지 로컬 모델의 한계인지 몰라도

qwen3 asr은 공식적으로는 6분까지 지원한다는데 로컬 기준 3분만 넘어가도 자막이랑 타임스탬프가 망가져서

(웹에서 qwen3 asr flash나 3.5omni쓰면 훨씬 긴 시간 음성도 타임스탬프까지 3.1pro급으로 정확하게 잘 뽑아준다고 하긴 하는데 이건 내부적으로 어떻게 되어있는지 모르니까.)

whisper(긴 음성도 실제로는 30초씩 처리됨)처럼 30초 ~ 3분 정도로 음성파일 분할해서 파이프라인 돌려야 한국어나 일본어 기준 럭키 위스퍼급 성능이 나오는데

그래서 걍 잼민이 api로 3분 단위로 분할한 음성으로 생성한 자막을 qwen3로 타임스탬프만 다시 찍으려니까

앞서 말한 잼민이의 축약 생략 재구성 환각 때문에 딸깍으로 구현하는데에는 한계가 있어서

요즘은 걍 포기하고 ai 스튜디오에서 3.1프로로 자막 생성 + 초단위 타임스탬프 찍게 하는 중...

- 이상한 누나