음성을 text로 변환하는 작업을 transcribe이라고 하고,
한국어로는 '전사'라고 부름
보통 transcribe는 자막 작업 빠르게 하려고
고기 초벌구이 해두는 느낌인데
소리 들으면서 틀린 부분만 교정하면 되니까
작업 속도가 매우 빨라진다
Youtube의 자동 생성 자막은 transcribe하는 거라서
직접 whisper(오픈소스 음성 전사 AI)를 구동해보면
같은 모델이라도 뉴스 아나운서 음성을 들려줬을 때,
발음이 안좋은 한국인의 음성을 들려줬을 때
정확도가 다르게 나온다
한국인도 모두가 표준 발음을 구사하는 게 아니고
서양인도 모두가 미국 표준 발음을 구사하는 게 아니라서
transcribe 작업 자체는 정확도를 90~95% 사이로 본다
그렇다고 AI가 통역에 못 써먹을 정도냐?
그건 아닌 이유가 LLM(GPT 등)에 사용자가 직접 원하는 문장을 입력하는 경우
그건 프롬프트에 따라 자연스러운 원어민 문장을 만들 수 있다
LLM이 제일 잘하는 게 Text 위주 작업, 단순 반복, 암기라서
Text to text 번역은 문제없다는 말
오역 투성이에다 자연스런 우리말과는 거리가 멀던데 . . .