https://arxiv.org/abs/2203.06173
UC ๋ฒํด๋ฆฌ์์ ๋์จ ๋ ผ๋ฌธ์ ๋๋ค.
์ฌ๋๋ค์ ์ด ๋ ผ๋ฌธ์ด MAE (Masked autoencoder)๋ฅผ real world ์์์ผ๋ก ํ์ต์ ์์ผ์ ๋์จ visual representation์ด ๋ฌผ์ฒด ์กฐ์ ์์ ์ ์์ฃผ ์ ์ฉํ๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์ค๋ค๊ณ ํ๋ค์.
๊ทธ๋ฌ๋๊น ์ ๊ฐ ์๋ ํ๋ ๋ด์์ ํ์ด์ ๋ง์์ ๋๋ฆฌ์๋ฉด, real ์ ๋ณด๋ฅผ random sampling ํ ๋ง์คํฌ๋ก ๋ง์คํน ํ ํ, ViT encoder์ ๋์ผํ๊ฒ ์์์ ํจ์น๋ก ๋๋์ด encoder๋ฅผ ํ์ต์ ์์ผฐ์ผ๋ฉฐ (์ ์ ๋น์ฉ์ผ๋ก ํ์ต์ ์ํฌ ์ ์๋ค๋ ์ฅ์ ๋ ์๋ค๊ณ ํฉ๋๋ค. ์ ๋ช ํ Kaiming He์ 2021๋ ๋ ผ๋ฌธ ์ฐธ์กฐ, https://arxiv.org/abs/2111.06377)
์ด๋ ๊ฒ ํ์ต์ํจ visual encoder๋ฅผ freeze ํ์ฌ RL๊ณผ ํจ๊ป motor control task์ ์ฌ์ฉ์ ํ์๋๋ task specificํ fine-tuning ์์ด๋ ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๋ ๋ด์ฉ์ ๋๋ค.
๊ทธ๋ฆฌ๊ณ ๋ณธ๋ฌธ์ ์ฒจ๋ถํ ์ฌ์ง๊ณผ ๊ฐ์ด encoder์์ ๋์จ visual represention์ด ์ฌ๋ฌ ๋ชจ์๊ณผ ์์์ ๋ฌธ์ ๋ ์ ํํํ๊ณ ๋์ ๋ฒ์์ ๋ฌผ์ฒด์ ํ๊ฒฝ๋ ์ ๋ํ๋ด๋ ๋ฑ ์ผ๋ฐํ๊ฐ ์ ๋๋ค๋ ๋ด์ฉ์ ๋๋ค.
MAE์ visual representation์์ decoding ํ ๊ฒฐ๊ณผ๊ฐ ์๋นํ ์ธ์๊น์ด์ ๊ณต์ ๋ฅผ ํด ๋ด ๋๋ค...
(์ ๊ฐ generative model์ ๋ํด์ ๋ณ๋ก ์๋๊ฒ ์๋ค๋ณด๋ ์์ ์์ฒด๊ฐ ํ๋ ธ์ ํ๋ฅ ์ด ๋์ต๋๋ค ใ ใ ์ง์ ๋ถํ๋๋ฆฝ๋๋ค~)
mae๋ ๋ฑ ์ด๋ฏธ์ง ํ bert์ ๊ฐ์ธ์ ์ผ๋ก data2vec์ ์ฉํ๋ฉด ๋ ์ข์๊ฒฐ๊ณผ ๋์ฌ๋ฏ. ์ฐธ๊ณ ๋ก mae๋ generative model๋ผ๊ณ ํ๊ธฐ๋ณด๋ค๋ ๋ชจ๋ธ์ pretrain ํ๋ ๋ฐฉ๋ฒ์ค ํ๋์ธ self supervised learning ๋ฐฉ๋ฒ์.
์ ๊ทธ๋ ๊ตฐ์~ ์ ๊ฐ ์ด ๋ถ์ผ์ ๋ํด์๋ ์ ๋ง ๊ฐ๊ฐ์ ์ฉ์ด๋ง ๋ค์ด๋ณธ ์์ค์ด๋ผ์ autoencoder๋ผ๊ณ ํ๋๊น ๊ทธ๋ฅ generative model์ด๋ผ๊ณ ํ๋ค์ ใ ใ ์ง์ ๊ฐ์ฌํฉ๋๋ค~