018ee40bcb9c28a8699fe8b115ef046bfee0847b


기존의 NMT with attention 논문에서는 encoder와 decoder 사이에서의 attention을 구했다면 LSTMN에서는 encoder 내에서의 attention을 구하고 이를 LSTM에서 cell state를 보관하는 배열을 만들어서 저장하는 방식으로 구현했네


이 내용 보자마자 바로 의자 밀치고 일어나서 공중제비 세 바퀴 돌았다

이런 구조는 직관으로 떠올리는건지 아니면 철저한 hidden state나 activation 또는 output의 분석을 통해서 일어나는 건지 궁금하다...

직관만으로 이런 구조를 떠올렸다면.. ㅎㄷㄷ