나는 맥 유저라서 mlx 모델 사용했는데 위스퍼 속도가 장난 아니게 빠르네 4분짜리 10초 내에 자막 만들어준다.
자막을 번역할 땐 deepl 사용했고 api 무료 사용량 초과되면 로컬ai 돌렸는데 GLM4:9b 사용함. Qwen3:8b도 쓸만함
그다음 TTS 로 자막 번역한거 읽어주는거 구현했는데 Edge TTS 활용함. 기계음 느낌이 나지만 쓸만함. 무료로 쓸만한 TTS 중에 MeloTTS도 쓸만하다고 하던데 파이썬 버전이 맞지 않아서 나중에 venv로 버전 맞춰서 해보려고 함.
마지막으로 한글로 번역하면서 음성과 영상 싱크가 맞지 않는 문제가 있는데 텍스트 요약 + 영상 재생 속도 + 음성 재생 속도 조절로 처리함.
유료 TTS도 써보려고 open ai tts가 쓸만한거 같던데 추천하는 TTS 있으면 추천 좀
구글 TTS도 음성 많던데
구글 TTS는 모든 TTS가 실패했을 경우에 백업용으로 구현해둠. 구글 TTS가 가장 기계음 느낌 나더라구