아오 이씨발.

어텐션에서 QK^T 풀면 EWqWkE 잖아요. E는 임베딩 벡터. 저거 걍 EWE로 놓고 풀면 안됨? 이 생각에서 벗어나지 못해서 인터넷을 뒤지고 있지만 발견한 대답은 WqWk가 파라미터가 더 적기때문에 빠르다는 것 뿐... 그리고 어텐션에서 Q와 K의 가중치가 가지는 의미를 파악해보려고 했지만 내 대갈빡으론 알아내기 너무 어렵다

Q와 K의 가중치가 무슨 의미를 가지는지, 그리고 두 Q K의 가중치를 W 하나로 퉁쳐서 실험한 논문이 있는지 궁금...
W를 두 행렬로 decompose한 걸로 보이는데... 매트릭스 두 개를 학습해야하는 이유가 있을까요. 성능적인 이점을 제외하고