그렇게 따지면 독자아키텍처는 세상에 뭐 있냐 다 구글 트랜스포머지

그러면 헤드 갯수 레이어 수 이런거까지 갖다 쓰는게 파쿠리 아니냐 할 수 있는데

모델이 동일한 파라미터 수와 학습 FLOPs여도
깊이를 깊게 하느냐, 너비를 넓게 하느냐에 따라

인퍼런스에 필요한 레이텐시와 트레이닝 로스가 바뀌는거고

현실세계에서 먹힐만한 적당히 빠르면서 적당히 정확도 높은 세팅은 비슷해질 수밖에 없음..

독자적으로 하겠답시고 미국중국이 찾아 놓은 최적 세팅을 버리고 열등한 세팅으로 학습해야 하나? 그거야말로 세금 낭비지