숨터

(본 내용은 논문의 저자인 Greg Yang, @TheGregYang 의 트위터 글에서 도둑질함, https://twitter.com/TheGregYang/status/1501294412126560257?s=20&t=QfvtD7a_iZ8eGPeWGex8fQ)

GPT-3 와 같은 큰 모델을 하나의 GPU에서 학습을 시킨다는 것은 어렵다는 사실은 다들 알거야.

하지만 새로운 방법으로 이게 가능하다고 한다면 어떨까?

이 방법에 대해서 자세히 알고 싶다면 아래의 링크를 참조해

논문 https://arxiv.org/abs/2203.03466

코드 https://github.com/microsoft/mup

블로그 https://microsoft.com/en-us/research/blog/%c2%b5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/

원리는 간단해(저자 주장), 이전에 저자가 제안한 µ-Parametrization(uP, 꼭 myu-P로 읽어달래) 을 사용하면 학습과정에서 모델의 스케일과 상관 없이 activation scale을 initialization때와 비슷하게 일정하게 유지하게 하는데, uP를 사용하면 모델이 크기와 상관 없이 같은 optimal hyperparameter를 갖는대. (learning rate, learning rate schedule, initialization 등등...)

388d9d34e0c12daa7af1dca511f11a39f02ce345a7274ea375

↑ uP를 사용하여 일정하게 유지되는 activation

388d9d2efcc23db47ebec4b41bc26a3761a584145a821db31166dbd4684b

↑ uP 적용시 모델의 width 와 상관 없이 learning rate가 동일한 지점에서 training loss가 가장 낮게 나오는 것을 볼 수 잇어 (optimum stable)

그래서 이 아이디어를 이용하여 아주 작은 버전의 GPT-3를 한 장의 GPU에서 학습을 시켜서 적절한 hyperparameter를 찾는거야. 만약 찾은 hyperparameter가 작은 모델에서 optimal에 가깝다면 큰 모델에서도 거의 optimal에 가깝다는거지. 그래서 저자는 이걸 *µTransfer*라고 부르기로 했대.

0b93e736b0c5199e799df39f12f33e733ee90a977815dd35269da49c3f71

그래서 저자는 GPU하나에서 학습 가능한 4000만개의 작은 모델에서 얻은 hyperparameter를 µTransfer해서 67억개의 파라미터를 가지는 큰 모델에서 학습시키는 실험을 했고 아주 적은 cost로 성공적인 학습결과를 냈대.

388d9d34e0c12daa7af1dca511f11a39f02ce345a32045a676

저자가 uP를 직접 다른 모델에 적용할 수 있는 코드를 깃헙에 올려놨고 자기네들 코드를 쓰는걸 추천한다고 하니 관심있으면 한 번 사용해봐~

[📰논문] 거대한 모델을 케이크처럼 쉽게 학습하는 방법

댓글 4

[📰논문] 거대한 모델을 케이크처럼 쉽게 학습하는 방법

댓글 4

다른 게시글

인공지능이랑 딥러닝이랑 차이가 뭐야?

러닝속도=쿠다코어수 정비례임??

딥러닝왜함?

구글 teachable machine 포즈 분류기 잘 아는사람

날코딩으로 하는 "머신러닝"은 교재 같은건 없나요?

컴터 이정도면 딥러닝 쌉가능?

음성인식 딥러닝을 해보고싶습니다.

딥러닝 관련 연구직, 개발직 전망 어떤거 같은가요

transformer 1000층 깊이 달성

갤 활성화를 기원하며 질문받음