숨터

2082d133f1dd3da86db098bf06d604033ab2f1272a079ecb79d0

UC 버클리에서 나온 논문입니다.

사람들은 이 논문이 MAE (Masked autoencoder)를 real world 영상으로 학습을 시켜서 나온 visual representation이 물체 조작 작업에 아주 유용하다는 사실을 보여준다고 하네요.

그러니까 제가 아는 한도 내에서 풀어서 말씀을 드리자면, real 정보를 random sampling 한 마스크로 마스킹 한 후, ViT encoder와 동일하게 영상을 패치로 나누어 encoder를 학습을 시켰으며 (적은 비용으로 학습을 시킬 수 있다는 장점도 있다고 합니다. 유명한 Kaiming He의 2021년 논문 참조, https://arxiv.org/abs/2111.06377)

이렇게 학습시킨 visual encoder를 freeze 하여 RL과 함께 motor control task에 사용을 하였더니 task specific한 fine-tuning 없이도 잘 문제를 해결했다는 내용입니다.

그리고 본문에 첨부한 사진과 같이 encoder에서 나온 visual represention이 여러 모양과 색상의 문제도 잘 표현하고 넓은 범위의 물체와 환경도 잘 나타내는 등 일반화가 잘 된다는 내용입니다.

MAE의 visual representation에서 decoding 한 결과가 상당히 인상깊어서 공유를 해 봅니다...

(제가 generative model에 대해서 별로 아는게 없다보니 서술 자체가 틀렸을 확률이 높습니다 ㅎㅎ 지적 부탁드립니다~)

mae는 딱 이미지 판 bert임 개인적으로 data2vec적용하면 더 좋은결과 나올듯. 참고로 mae는 generative model라고 하기보다는 모델을 pretrain 하는 방법중 하나인 self supervised learning 방법임.

익명(211.36) 2022-03-16 11:25

답글

아 그렇군요~ 제가 이 분야에 대해서는 정말 각각의 용어만 들어본 수준이라서 autoencoder라고 하니까 그냥 generative model이라고 했네요 ㅎㅎ 지적 감사합니다~

지잡컴공(wlwkqzjarhd) 2022-03-16 17:30

[📰논문] 모터 제어를 위한 masked visual training

댓글 2

[📰논문] 모터 제어를 위한 masked visual training

댓글 2

다른 게시글

딥러닝 전공하고 석사졸업준비중입니다... 고민이 있습니다...

NVIDIA GPU 프로세서 뷰어 nvitop

요즘 드랍아웃은 거의 사장된 건지?

대졸하고 미국 취업 생각하는 사람 있음?

웹앱따리도 딥러닝 일 해볼 수 있나요?

ICML 2022 Phase 1 기준이 뭔지 혹시 아시는분 없나요?

라즈베리파이로 BERT 가능한가?

딥러닝 연구개발에서 워라밸을 기대하는건

여기 주딱이 대단하긴 한듯

기초 공부할때 공식같은거 다 이해하고 넘어가야함?