(๋ณธ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ ์์ธ Greg Yang, @TheGregYang ์ ํธ์ํฐ ๊ธ์์ ๋๋์งํจ, https://twitter.com/TheGregYang/status/1501294412126560257?s=20&t=QfvtD7a_iZ8eGPeWGex8fQ)
GPT-3 ์ ๊ฐ์ ํฐ ๋ชจ๋ธ์ ํ๋์ GPU์์ ํ์ต์ ์ํจ๋ค๋ ๊ฒ์ ์ด๋ ต๋ค๋ ์ฌ์ค์ ๋ค๋ค ์๊ฑฐ์ผ.
ํ์ง๋ง ์๋ก์ด ๋ฐฉ๋ฒ์ผ๋ก ์ด๊ฒ ๊ฐ๋ฅํ๋ค๊ณ ํ๋ค๋ฉด ์ด๋จ๊น?
์ด ๋ฐฉ๋ฒ์ ๋ํด์ ์์ธํ ์๊ณ ์ถ๋ค๋ฉด ์๋์ ๋งํฌ๋ฅผ ์ฐธ์กฐํด
๋ ผ๋ฌธ https://arxiv.org/abs/2203.03466
์ฝ๋ https://github.com/microsoft/mup
๋ธ๋ก๊ทธ https://microsoft.com/en-us/research/blog/%c2%b5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/
์๋ฆฌ๋ ๊ฐ๋จํด(์ ์ ์ฃผ์ฅ), ์ด์ ์ ์ ์๊ฐ ์ ์ํ ยต-Parametrization(uP, ๊ผญ myu-P๋ก ์ฝ์ด๋ฌ๋) ์ ์ฌ์ฉํ๋ฉด ํ์ต๊ณผ์ ์์ ๋ชจ๋ธ์ ์ค์ผ์ผ๊ณผ ์๊ด ์์ด activation scale์ initialization๋์ ๋น์ทํ๊ฒ ์ผ์ ํ๊ฒ ์ ์งํ๊ฒ ํ๋๋ฐ, uP๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ด ํฌ๊ธฐ์ ์๊ด ์์ด ๊ฐ์ optimal hyperparameter๋ฅผ ๊ฐ๋๋. (learning rate, learning rate schedule, initialization ๋ฑ๋ฑ...)
โ uP๋ฅผ ์ฌ์ฉํ์ฌ ์ผ์ ํ๊ฒ ์ ์ง๋๋ activation
โ uP ์ ์ฉ์ ๋ชจ๋ธ์ width ์ ์๊ด ์์ด learning rate๊ฐ ๋์ผํ ์ง์ ์์ training loss๊ฐ ๊ฐ์ฅ ๋ฎ๊ฒ ๋์ค๋ ๊ฒ์ ๋ณผ ์ ์์ด (optimum stable)
๊ทธ๋์ ์ด ์์ด๋์ด๋ฅผ ์ด์ฉํ์ฌ ์์ฃผ ์์ ๋ฒ์ ์ GPT-3๋ฅผ ํ ์ฅ์ GPU์์ ํ์ต์ ์์ผ์ ์ ์ ํ hyperparameter๋ฅผ ์ฐพ๋๊ฑฐ์ผ. ๋ง์ฝ ์ฐพ์ hyperparameter๊ฐ ์์ ๋ชจ๋ธ์์ optimal์ ๊ฐ๊น๋ค๋ฉด ํฐ ๋ชจ๋ธ์์๋ ๊ฑฐ์ optimal์ ๊ฐ๊น๋ค๋๊ฑฐ์ง. ๊ทธ๋์ ์ ์๋ ์ด๊ฑธ *ยตTransfer*๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํ๋.
๊ทธ๋์ ์ ์๋ GPUํ๋์์ ํ์ต ๊ฐ๋ฅํ 4000๋ง๊ฐ์ ์์ ๋ชจ๋ธ์์ ์ป์ hyperparameter๋ฅผ ยตTransferํด์ 67์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ํฐ ๋ชจ๋ธ์์ ํ์ต์ํค๋ ์คํ์ ํ๊ณ ์์ฃผ ์ ์ cost๋ก ์ฑ๊ณต์ ์ธ ํ์ต๊ฒฐ๊ณผ๋ฅผ ๋๋.
์ ์๊ฐ uP๋ฅผ ์ง์ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ ์ฉํ ์ ์๋ ์ฝ๋๋ฅผ ๊นํ์ ์ฌ๋ ค๋จ๊ณ ์๊ธฐ๋ค๋ค ์ฝ๋๋ฅผ ์ฐ๋๊ฑธ ์ถ์ฒํ๋ค๊ณ ํ๋ ๊ด์ฌ์์ผ๋ฉด ํ ๋ฒ ์ฌ์ฉํด๋ด~
์ต์ ๋ ผ๋ฌธ์์ ์ข์์ฉ
์ผ์ดํฌ ์ค๋ง peice of cake ๋งํ์๋ ๊ฑด๊ฐ์ผ?
'์ผ๋ณธ ์ฌ์๋ฅผ ์ผ์ดํฌ์ฒ๋ผ ์ฝ๊ฒ ๋จน๋ ๋ฐฉ๋ฒ' ํจ๋ฌ๋์ ๋๋ค