서적은 없음. 일본인이 쓴 책 있긴 한데 씹 틀딱 책임. 그래서
Tacotron2이나 VITS 구현물 가지고 다들 공부함.
익명(220.79)2024-09-05 17:19
답글
인식쪽은 그냥 Wav2Vec2.0 계열쪽으로 하거나 Whisper 구현물 보는게 최고
Kaldi나 Wenet 같은 틀딱 엔진 보면 토나옴
익명(220.79)2024-09-05 17:31
답글
혹시 그럼 그런 구현물은 보통 구글링으로 찾아보나요?
아니면 관련 논문 위주로 공부를 하나요?
ㅇㅇㅇ(218.236)2024-09-06 10:11
배워야 할게 많아. 음성과 언어 처리라는 책 있긴한데 영어기준여서 참고자료로만 사용하고 전처리하는 것도 멜 스펙트로그램도 알아해서 학부생이니까 차근차근 하나씩 배우는게 좋아.
제일 좋은건 다니는 대학에 음성처리 있으면 학부 연구생 하는게 좋음. 없으면 타 대학 교수한테 잘 비벼서 방학때 인턴하는거
사실 대학원 가는게 정답임
서적은 없음. 일본인이 쓴 책 있긴 한데 씹 틀딱 책임. 그래서 Tacotron2이나 VITS 구현물 가지고 다들 공부함.
인식쪽은 그냥 Wav2Vec2.0 계열쪽으로 하거나 Whisper 구현물 보는게 최고 Kaldi나 Wenet 같은 틀딱 엔진 보면 토나옴
혹시 그럼 그런 구현물은 보통 구글링으로 찾아보나요? 아니면 관련 논문 위주로 공부를 하나요?
배워야 할게 많아. 음성과 언어 처리라는 책 있긴한데 영어기준여서 참고자료로만 사용하고 전처리하는 것도 멜 스펙트로그램도 알아해서 학부생이니까 차근차근 하나씩 배우는게 좋아. 제일 좋은건 다니는 대학에 음성처리 있으면 학부 연구생 하는게 좋음. 없으면 타 대학 교수한테 잘 비벼서 방학때 인턴하는거 사실 대학원 가는게 정답임