숨터

concat이야 뒤에 붙이는거니까 모델이 두 정보를 구분하고 반영할 수 있다 침. 그런데 두 벡터를 add하거나 xor했는데 그 정보를 받아들이고 구분한다는게 신기함. 예를들어 transformer의 positional emcoding. 임베딩 벡터에 포지션 정보 벡터를 더했을 뿐인데 포지션을 인식한다는게 신기하지 않음? 이런거 관련된 논문 있음? 내가 좀 멍청한건지... 다들 당연하게 받아들이나.

사실 나도 신기함

익명(118.235) 2024-08-24 13:28

임베딩이라는게 원래 그런거 아님?

익명(118.235) 2024-08-24 13:28

벡터를 더한 결과값만 봐서 그런가. 괄호로 묶어서 보면 좀 나을라나... c가 아니라 (a+b)로..

땔감(gcp24685) 2024-08-24 13:35

평균이랑 표준편차라는 통계치가 몇백년동안 쓰이고 있다는거 알면 까무러치겠노

익명(218.237) 2024-08-24 13:35

답글

A+B 랑 A-B 가 있으면 A,B가 복원가능한건 연립방정식으로 명확하니까 걍 똑같이 이해하면됨. 결국엔 딥러닝도 (비)선형 분리 가능한 문제만 다루기 때문에

익명(218.237) 2024-08-24 13:38

답글

(비)선형 분리 라는 말보다 걍 Surjective하다고 쓰는게 나을지도 모르겠노

익명(218.237) 2024-08-24 13:45

답글

결국 벡터를 이리저리 볶아도 선형분리 가능하면 된다는건가. surjective는 내공이 부족해서 이해가 안됨...

땔감(gcp24685) 2024-08-24 15:52

답글

다시 생각해봤는데 걍 피쳐 더하는것도 일종의 aggregation이라 생각하면 되려나

땔감(gcp24685) 2024-08-24 17:25

답글

근데 님 말대로면 concat을 쓰는 이유가 뭐임? elementwise add만 해도 그게 다 track이 가능해서 backpropagation이 가능하다면?

익명(39.115) 2024-08-28 05:08

답글

'이론상' 가능한거지 실제론 가능한게 아니기 때문에 concat이 나음. 1차원 데이터면 a,b를 구분하기 위해서 a+b, a-b에 해당하는 데이터만 있으면 되지만, n 차원이면 공분산 갯수 이상의 데이터가 필요함

익명(218.237) 2024-09-01 12:00

RoPE 설명한 어떤 블로그에 잘 소개되어있던데

익명(58.238) 2024-08-24 13:37

focalors(pytorch) 2024-08-24 15:55

난 이해안되지만 그냥 쓰는중

익명(218.155) 2024-08-24 16:09

[일반] 네트워크에서 element wise add, mul 보면 신기함

댓글 13

[일반] 네트워크에서 element wise add, mul 보면 신기함

댓글 13

다른 게시글

님들은 코드 어떻게 짜는편?

pytorch 이거 원래 설치할때 잘 안됨?

왜 차원이 안맞나 했더니

남의 네트워크 긁어다 쓰는것도 힘들다

개인용 pc 사양 있어야함?

phi 3.5 별로인듯

팩트는 batch가 건강해지고있다는거임

시계열 데이터 학습하기 전에

sklearn KMeans predict(x) 계산

AI 랠리가 언제까지 이어질까?