그렇게 따지면 독자아키텍처는 세상에 뭐 있냐 다 구글 트랜스포머지
그러면 헤드 갯수 레이어 수 이런거까지 갖다 쓰는게 파쿠리 아니냐 할 수 있는데
모델이 동일한 파라미터 수와 학습 FLOPs여도
깊이를 깊게 하느냐, 너비를 넓게 하느냐에 따라
인퍼런스에 필요한 레이텐시와 트레이닝 로스가 바뀌는거고
현실세계에서 먹힐만한 적당히 빠르면서 적당히 정확도 높은 세팅은 비슷해질 수밖에 없음..
독자적으로 하겠답시고 미국중국이 찾아 놓은 최적 세팅을 버리고 열등한 세팅으로 학습해야 하나? 그거야말로 세금 낭비지
트랜스포머+moe는 쓰는데 타모델거 그냥 들고왔냐 아니냐 문제 아닌가?
그니까 그건 문제삼을 이유가 안된다고 어차피 ablation하면서 찾으면 수렴하게 돼있는거 걍 갖다쓰는게 맞지
그 논리면 삼성은 뭐 하러 엑시노스 만드냐? 그냥 퀄컴 스냅드래곤 갖다 쓰지 ㅋㅋ 효율 따질 거면 연구소 때려치우고 수입 대행사나 해라.
연구하라고 한 취지가 아닌데 노벨티 측면의 연구결과로 달라는게 모순이지
이건 과제 자체가 신규 아키텍처 탐구 과제가 아니지. 세금으로 지원해서 국내용 기반모델 학습하는게 목표인데.