concat이야 뒤에 붙이는거니까 모델이 두 정보를 구분하고 반영할 수 있다 침. 그런데 두 벡터를 add하거나 xor했는데 그 정보를 받아들이고 구분한다는게 신기함. 예를들어 transformer의 positional emcoding. 임베딩 벡터에 포지션 정보 벡터를 더했을 뿐인데 포지션을 인식한다는게 신기하지 않음? 이런거 관련된 논문 있음? 내가 좀 멍청한건지... 다들 당연하게 받아들이나.