정부의 '독자 파운데이션 모델' 프로젝트에서 또 프롬 스크래치(모델 첫 단계부터 모두 자체 구축) 논란이 제기됐다. 네이버클라우드의 '하이퍼클로바X' 모델이 중국 모델의 인코더를 미세 조정(파인튜닝) 한 뒤 사용한 사실을 두고 갑론을박이 이어지고 있다.

5일 업계에 따르면 네이버클라우드의 '하이퍼클로바X 시드 32B 싱크'는 중국 알0리바바의 큐웬(Qwen) 2.5 언어모델과 비전 인코더 웨이트의 코사인 유사도 99.51%, 피어슨 상관계수 98.98% 이상의 수치를 보였다.

피어슨 상관계수는 실제 데이터값의 분포가 얼마나 똑같은지를 따지는 지표다. 코사인 유사도가 의미하는 단순 방향성이 아닌 실제 데이터 유사성을 따질 때 사용된다.

이를 바탕으로 분석할 때, 네이버의 하이퍼클로바X 시드 32B 싱크 모델은 큐웬 2.5 모델의 비전 인코더와 웨이트를 가져다 일부 파인 튜닝해 사용한 것으로 분석된다.

비전 인코더뿐 아니다. 오디오 인코더는 파인 튜닝 과정없이 그대로 사용한 것으로 나타났다.

네이버클라우드 측도 큐웬 2.5 모델의 비전·오디오 인코더를 가져다 사용한 점은 인정했다. 다만 추가 학습이랑 최적화를 거쳤으며 테크 리포트를 통해 이를 명시했다는 입장이다.


0490f719b08360f42095e69236ef203ea438299174401f


머리는 나쁘면서 오만하고 잔꾀만 부리는 개센징...

제자리를 찾아가는 운명을 피할 수 없구나.