비전트랜스포머 모듈 3개를 이어놓고 각각 하나 통과할 때마다 트랜스포즈 한번 시켜주고 그 다음으로 넣고 하는 식인데 들어갈 때마다 엠베딩을 하면 cls가 추가되잖음
이럼 3개의 각 블럭들의 헤드갯수가 다 똑같을 시에(원저자는 그렇게 했던데 아무튼) 도저히 패딩이나 보간을 안하고 못뻐기게 생겼는데 그러기 귀찮아서 대충 헤드갯수 나눠지게 모듈마다 따로 줘놓고 간단한 분류로 훈련한 뒤 정확도 9x퍼 조아쓰 하고 끝냈단 말이야
마지막에 cls만 쏙 빼서 보는게 아니고 다시 cnn 갈겨서 나오는 결과물인데 그럼 만약에 각 트랜스포머 모듈에서 cls를 조까고 시누소이달로 꾸겨넣으면 어떻게 되는거지?
관련한 자료가 있는거 같긴 한데 맛보기 전에 입가심으로 의견들을 들어보고 싶음
[❓질문] 그러게요 왜 병신같은 역전파로 인공지능을 만드는거죠?
펜니르(lonewolf)
2024-09-08 03:45
추천 0
댓글 1
다른 게시글
-
데이콘 해볼까
[2][일반] 땔감(gcp24685) | 24.09.08추천 0 -
ai대학원 입학했는데
[2][일반] 익명(121.176) | 24.09.08추천 1 -
스노우 소다 AI 서비스에서 사고터짐
[8][일반] 익명(121.173) | 24.09.07추천 2 -
학부 전공 출신은 AI 개발자 되기 어려운가?
[7][일반] 익명(1.228) | 24.09.07추천 2 -
pinn 잘아는 사람 있음?
[6][일반] 익명(211.179) | 24.09.07추천 0 -
커널함수 개쩐다
[2][일반] 땔감(gcp24685) | 24.09.07추천 0 -
개발자로서 갈피를 못잡겠노
[2][일반] 익명(218.237) | 24.09.07추천 1 -
latent diffusion을 i2i로 활용한 모델이 있나?
[3][❓질문] 익명(211.36) | 24.09.07추천 0 -
트랜스포머가 디퓨전보다 더 어렵게 느껴짐
[6][일반] 익명(121.172) | 24.09.06추천 0 -
컴공과 학생이 선배님에게 소개하는 TDA
[2][📰논문] 익명(119.204) | 24.09.06추천 2
거 낚시질 좀 했다고 한놈도 답이 없냐 ㅉㅉ