보시다시피 이렇게 생긴 놈이고요, 딥러닝에 익숙하신 분들이라면 쉽게 설명해주실 수 있으실 것 같아서 딥갤에 글을 쓰게 되었습니다.
블록 RNN이 어떻게 동작하는건지, 어떤 차별점이있고, 무엇을 기대할 수 있는지 설명해 주실 수 있으신 딥갤 전문가님들께서는
부디 아래 링크를 타고 오셔서 가르쳐주시기를 바랍니다!
[❓질문] 안녕하세요, 블록 RNN에 대해 궁금해서 여쭤보러 왔습니다.
익명(118.44)
2022-03-18 21:17:00
추천 0
댓글 13
다른 게시글
-
파이썬 하나로만 딥러닝 공부가 가능한가요?
[4][❓질문] 익명(14.33) | 22.03.18추천 0 -
모두의 딥러닝이랑 Cs231n 이랑 뭐가 더 높은 단계야?
[4][❓질문] 익명(211.104) | 22.03.17추천 0 -
인공지능의 간단 소개
[2][💡정보] 대덕SW마이..(202110phy) | 22.03.17추천 5 -
[희망편] AI 석사따고 취업
[7][💩] Jahy(pytorch) | 22.03.17추천 1 -
딥러닝 뉴비인데 FCN 공부하면서 로스로 BCE 썻는데
[1][❓질문] 익명(211.255) | 22.03.17추천 0 -
대학 과제 가이드좀 잡아주세요 형님들ㅠ
[7][❓질문] 익명(121.136) | 22.03.17추천 1 -
딥마인드 Xland 연구 이거면 AGI 가능하지 않나요?
[4][💩] 익명(211.228) | 22.03.17추천 0 -
머신러닝공부를비추하는쪼금지루한길이의글
[9][💡정보] 미쿠쨩넘나..(121.169) | 22.03.16추천 6 -
형님들 제가 pytorch로 GPU 사용하는데 사용량이 이상해요
[12][❓질문] 익명(118.235) | 22.03.16추천 0 -
논문 이해가 안가서 물어볼려고 왔어
[9][❓질문] 익명(222.238) | 22.03.16추천 0
논문:
https://arxiv.org/pdf/2203.07852.pdf
훠훠 저는 내로남불이라 타갤러리 영업은 받지 않습니다^^
ㅋㅋㅋㅋㅋㅋㅋ
왜? 이게 그렇게 유명하고 좋음? 걍 대충보면 요즘 prevailing한 구조놀음같은데
트위터 추천이 많아서 다른 갤러가 퍼오게 됐는데, 그렇게 좋은지는 모르겠음. 애초에 뭐가 바뀐 건지도 모르겠음
애초에 transformer-xl에서 이미 보통 쓰는 512보다 긴 token 처리하는건 pioneering이 됐고, 이건 걍 거기에 recurrent architecture 좀 얹은거 같은데.. 내가 리뷰어였으면 보더줬을듯
보니까 static한 파라미터를 없앨 수 있다는 것 같은데, 그래서 토큰 수를 반으로 줄였다는 것 같음.
ㅇㅎ 그렇군
논문 보면 transformer xl 보다 속도 빠르고 성능은 더 좋다고 나와있음.개인적으로 transformer xl 강화판이라는 느낌 꽤 쎄게 받음.
갠적으로는 구조깔짝 논문은 사기가 하도 많아서 성능 좀 더 높고 이런 claim은 크게 안봄.(요즘 탑티어 리뷰프로세스도 비슷한 추세, sota claim이 너무 많아서) 그게 얼마나 학계에 인사이트를 주는가가 더 중요하다고 생각함. 대략 보면 이 페이퍼에서 밀고 있는 부분은 통상적인 vertical process와 analogous하게 horizontal recurrent process를 만들었고, 이게 reasonable하게 동작한다는 점 같은데 이 부분은 꽤 참신해서 weak accept~border 쪽 정도 받을거같음. 그런데 특이점갤? 같은 곳에서 이슈될만큼 paradigm-changing 페이퍼는 절대 아닌건 확실
특온갤의 역치를 높게 보시는군요ㅋㅋㅋ
특온갤은 어떤 논문이든 일단 환호하고 보는게 디폴트임