성능 완전 괴물이던데...어떻게 그렇게 많은 word에 대해서 대응할 수 있는걸까요.단어 1개에 대해서도 인식 잘하는 거 보면 language model에 크게 의존하지도 않는 것 같은데..
모델 아키텍쳐 공개가 되어있나요? 클로바팀 가끔 컨퍼런스 열던데 그런거 참고하시면댈듯 - dc App
음성인식쪽은 공개된걸 본적이 없는것 같아요. 간간히 누구나 카카오 마인즈랩 자료 보긴 하는데 뭔가 시스템적으로 공개된건 적은거 같아요. Kaldi나 Espnet 참고할수밖에 없나..
얼마나 대단한거길래 그렇게 꽁꽁 숨겨두나 싶네요 craft도 모델 어케생긴지만 대강알려주고 코드는 공개안하던데 - dc App
모델 아키텍쳐는 대충 Conformer에 Transducer 붙여놓은것이지 않을까요? Craft는 뭔가요 혹시 크래프톤?;;
scene text detection 수행하는 모델이에요 - dc App
앗 그렇군요; CTC에 친숙하시겠네요
ctc는 detection이아니라 recognition쪽이긴한데 만져보긴했지만 만족할만한 성능은 아니더라구요 - dc App
역시 Auto Regressive 모델을 써야 성능이... 근데 그러면 서비스 할 만큼의 속도가 안나올거 같아서 걱정이네요
trade off죠뭐...ㅠ - dc App