음성을 text로 변환하는 작업을 transcribe이라고 하고,

한국어로는 '전사'라고 부름


보통 transcribe는 자막 작업 빠르게 하려고

고기 초벌구이 해두는 느낌인데

소리 들으면서 틀린 부분만 교정하면 되니까

작업 속도가 매우 빨라진다


Youtube의 자동 생성 자막은 transcribe하는 거라서

직접 whisper(오픈소스 음성 전사 AI)를 구동해보면


같은 모델이라도 뉴스 아나운서 음성을 들려줬을 때, 

발음이 안좋은 한국인의 음성을 들려줬을 때


정확도가 다르게 나온다


한국인도 모두가 표준 발음을 구사하는 게 아니고

서양인도 모두가 미국 표준 발음을 구사하는 게 아니라서


transcribe 작업 자체는 정확도를 90~95% 사이로 본다


그렇다고 AI가 통역에 못 써먹을 정도냐?

그건 아닌 이유가 LLM(GPT 등)에 사용자가 직접 원하는 문장을 입력하는 경우

그건 프롬프트에 따라 자연스러운 원어민 문장을 만들 수 있다


LLM이 제일 잘하는 게 Text 위주 작업, 단순 반복, 암기라서

Text to text 번역은 문제없다는 말