숨터

21b2c335abc236a14e81d2b628f177691b35e4

성능 완전 괴물이던데...

어떻게 그렇게 많은 word에 대해서 대응할 수 있는걸까요.

단어 1개에 대해서도 인식 잘하는 거 보면 language model에 크게 의존하지도 않는 것 같은데..

모델 아키텍쳐 공개가 되어있나요? 클로바팀 가끔 컨퍼런스 열던데 그런거 참고하시면댈듯 - dc App

익명(122.45) 2022-05-29 00:35:00

답글

음성인식쪽은 공개된걸 본적이 없는것 같아요. 간간히 누구나 카카오 마인즈랩 자료 보긴 하는데 뭔가 시스템적으로 공개된건 적은거 같아요. Kaldi나 Espnet 참고할수밖에 없나..

125(125.133) 2022-05-29 00:39:00

답글

얼마나 대단한거길래 그렇게 꽁꽁 숨겨두나 싶네요 craft도 모델 어케생긴지만 대강알려주고 코드는 공개안하던데 - dc App

익명(122.45) 2022-05-29 00:41:00

답글

모델 아키텍쳐는 대충 Conformer에 Transducer 붙여놓은것이지 않을까요? Craft는 뭔가요 혹시 크래프톤?;;

125(125.133) 2022-05-29 00:49:00

답글

scene text detection 수행하는 모델이에요 - dc App

익명(122.45) 2022-05-29 00:49:00

답글

앗 그렇군요; CTC에 친숙하시겠네요

125(125.133) 2022-05-29 00:52:00

답글

ctc는 detection이아니라 recognition쪽이긴한데 만져보긴했지만 만족할만한 성능은 아니더라구요 - dc App

익명(122.45) 2022-05-29 00:55:00

답글

역시 Auto Regressive 모델을 써야 성능이... 근데 그러면 서비스 할 만큼의 속도가 안나올거 같아서 걱정이네요

125(125.133) 2022-05-29 00:56:00

답글

trade off죠뭐...ㅠ - dc App

익명(122.45) 2022-05-29 00:58:00

[❓질문] 네이버 음성인식 모델은 어떻게 이루어져 있을까요