비전트랜스포머 모듈 3개를 이어놓고 각각 하나 통과할 때마다 트랜스포즈 한번 시켜주고 그 다음으로 넣고 하는 식인데 들어갈 때마다 엠베딩을 하면 cls가 추가되잖음
이럼 3개의 각 블럭들의 헤드갯수가 다 똑같을 시에(원저자는 그렇게 했던데 아무튼) 도저히 패딩이나 보간을 안하고 못뻐기게 생겼는데 그러기 귀찮아서 대충 헤드갯수 나눠지게 모듈마다 따로 줘놓고 간단한 분류로 훈련한 뒤 정확도 9x퍼 조아쓰 하고 끝냈단 말이야

마지막에 cls만 쏙 빼서 보는게 아니고 다시 cnn 갈겨서 나오는 결과물인데 그럼 만약에 각 트랜스포머 모듈에서 cls를 조까고 시누소이달로 꾸겨넣으면 어떻게 되는거지?
관련한 자료가 있는거 같긴 한데 맛보기 전에 입가심으로 의견들을 들어보고 싶음