concat이야 뒤에 붙이는거니까 모델이 두 정보를 구분하고 반영할 수 있다 침. 그런데 두 벡터를 add하거나 xor했는데 그 정보를 받아들이고 구분한다는게 신기함. 예를들어 transformer의 positional emcoding. 임베딩 벡터에 포지션 정보 벡터를 더했을 뿐인데 포지션을 인식한다는게 신기하지 않음? 이런거 관련된 논문 있음? 내가 좀 멍청한건지... 다들 당연하게 받아들이나.
[일반] 네트워크에서 element wise add, mul 보면 신기함
땔감(gcp24685)
2024-08-24 13:24
추천 0
댓글 13
다른 게시글
-
님들은 코드 어떻게 짜는편?
[6][일반] 땔감(gcp24685) | 24.08.24추천 0 -
pytorch 이거 원래 설치할때 잘 안됨?
[10][일반] 익명(59.25) | 24.08.24추천 0 -
왜 차원이 안맞나 했더니
[일반] 땔감(gcp24685) | 24.08.24추천 0 -
남의 네트워크 긁어다 쓰는것도 힘들다
[일반] 땔감(gcp24685) | 24.08.24추천 0 -
개인용 pc 사양 있어야함?
[4][일반] 익명(220.127) | 24.08.23추천 0 -
phi 3.5 별로인듯
[1][일반] 익명(218.237) | 24.08.23추천 1 -
팩트는 batch가 건강해지고있다는거임
[4][일반] batch(118.235) | 24.08.23추천 5 -
시계열 데이터 학습하기 전에
[2][❓질문] 익명(180.224) | 24.08.23추천 0 -
sklearn KMeans predict(x) 계산
[2][일반] 또또(58.122) | 24.08.23추천 0 -
AI 랠리가 언제까지 이어질까?
[4][일반] 익명(211.197) | 24.08.23추천 1
사실 나도 신기함
임베딩이라는게 원래 그런거 아님?
벡터를 더한 결과값만 봐서 그런가. 괄호로 묶어서 보면 좀 나을라나... c가 아니라 (a+b)로..
평균이랑 표준편차라는 통계치가 몇백년동안 쓰이고 있다는거 알면 까무러치겠노
A+B 랑 A-B 가 있으면 A,B가 복원가능한건 연립방정식으로 명확하니까 걍 똑같이 이해하면됨. 결국엔 딥러닝도 (비)선형 분리 가능한 문제만 다루기 때문에
(비)선형 분리 라는 말보다 걍 Surjective하다고 쓰는게 나을지도 모르겠노
결국 벡터를 이리저리 볶아도 선형분리 가능하면 된다는건가. surjective는 내공이 부족해서 이해가 안됨...
다시 생각해봤는데 걍 피쳐 더하는것도 일종의 aggregation이라 생각하면 되려나
근데 님 말대로면 concat을 쓰는 이유가 뭐임? elementwise add만 해도 그게 다 track이 가능해서 backpropagation이 가능하다면?
'이론상' 가능한거지 실제론 가능한게 아니기 때문에 concat이 나음. 1차원 데이터면 a,b를 구분하기 위해서 a+b, a-b에 해당하는 데이터만 있으면 되지만, n 차원이면 공분산 갯수 이상의 데이터가 필요함
RoPE 설명한 어떤 블로그에 잘 소개되어있던데
난 이해안되지만 그냥 쓰는중