7cef8368e2db3e8650bbd58b3682726592b4


차세대 모델: Gemini 1.5

2024년 2월 15일

읽는 시간: 6분

다양한 방식의 길이 있는 문맥에 대한 이해가 획기적으로 개선되며, 모델 성능이 크게 향상되었습니다.


Google 및 Alphabet CEO Sundar Pichai의 글:


저번 주 저희는  가장 우수한 모델인 Gemini 1.0 Ultra를 출시했습니다. 구글 제품을 보다 유용하게 하는 과정에서 Gemini Advanced가 중요한 진전을 이루었습니다. 오늘부터 개발자들과 클라우드 고객들도 AI Studio와 Vertex AI에서 1.0 Ultra를 기반으로 작업을 시작할 수 있습니다.

저희 팀은 안전에 중점을 두면서 최신 모델의 새로운 기술 영역을 계속 개척하고 있으며, 빠른 진전을 거두고 있습니다. 사실 저희는 이미 차세대 모델인 Gemini 1.5를 소개할 준비가 되었습니다. 이 모델은 여러 차원에서 상당한 개선을 보여주며 1.5 Pro는 연산능력은 더 적게 사용하면서도 1.0 Ultra와 비견할 만한 품질을 보여줍니다.

새로운 차세대 모델은 또한 길이 있는 문맥에 대한 이해에서도 획기적인 발전을 이루었습니다. 저희는 모델이 일관적으로 처리할 수 있는 정보의 양을 대폭 늘릴 수 있었으며, 100만 토큰까지 실행가능하도록 하여 다른 모든 대규모 기반 모델 보다 더 긴 문맥 윈도우를 구현했습니다.

더 긴 문맥 윈도우는 가능성을 제시하고 있습니다.  이를 통해 완전히 새로운 기능  구현할 수 있고 개발자가 보다 유용한 모델과 애플리케이션을 구축할 수 있게 되며, 저희는 개발자와 기업 고객에게 이 실험적인 기능을 제한적으로 미리 볼 수 있는 기회를 제공하게 되어 기쁩니다. Demis가 기능성, 안정성, 그리고 사용가능성 등에 대해 아래에서 자세히 공유 합니다.


— Sundar



Gemini 1.5 소개

Google DeepMind CEO인 Demis Hassabis가 Gemini 팀을 대신하여


AI의  흥미진진한 시기입니다. 이 분야의 새로운 발전은 향후 수년간 수십억 명의 사람들에게 AI를 더욱 유용하게 할 잠재력을 가지고 있습니다. 저희는 Gemini 1.0을 도입한 이후로 그 역량을 테스트 및 개선해 왔습니다.

오늘은 차세대 모델인 Gemini 1.5를 발표하게 되어 기쁩니다.

Gemini 1.5는 성능이 크게 향상되었습니다. 이는 저희 기초 모델 개발 및 인프라의 거의 모든 부분에서 연구 및 엔지니어링 혁신을 토대로 구축된 전환점을 나타냅니다. 여기에는 새로운 MoE(Mixture-of-Experts) 아키텍처를 통해 Gemini 1.5를 교육 및 제공하는 데 보다 효율성을 도모하는 작업도 포함됩니다.

조기 테스트를 위해 출시하는 첫 번째 Gemini 1.5 모델은 Gemini 1.5 Pro입니다. 다양한 작업에  맞게 성능을 끌어올리도록 최적화된 중간 규모의 멀티모달 모델로, 저희의 지금까지 가장 큰 모델인 1.0 Ultra와 비슷한 수준의 성능을 발휘합니다. 또한 길이 있는 문맥에 대한 이해에서 선도적인 실험적인 기능도 도입합니다.

Gemini 1.5 Pro에는 표준 128,000토큰의 문맥 창이 함께 제공됩니다. 그러나 오늘부터 일부 개발자들과 기업 고객들은 AI Studio와 Vertex AI의 비공개 미리보기를 통해 최대 백만 토큰의 문맥 창에서 이 모델을 테스트해 볼 수 있습니다.

백만 토큰에 해당하는 전체 문맥 창을 선보이는 단계에서, 저희는 대기 시간 개선, 연산 요구사항의 감소, 사용자 경험 향상을 위한 최적화에 적극적으로 힘쓰고 있습니다. 여러분들이 이 획기적인 역량을 사용해 본다면 매우 기쁠 것이며, 아래에서 향후 이용가능성에 대한 세부 정보를 더 자세히 공유하겠습니다.

차세대 모델의 이러한 지속적인 발전은 사람들과 개발자 및 기업이 AI를 사용하여 새롭게 창조하고, 발견하고, 구축할 수 있는 가능성을 열어줄 것입니다.


1ebec223e0dc2bae61ab96e74683707026f14aff861be72e495a8dc63c722c42b8516387102e6bf1b028f65fdaf0b01545cf9f10a7




고효율 아키텍처


Gemini 1.5는 Transformer 및 MoE 아키텍처에 대한 당사의 첨단 연구를 기반으로 구축되었습니다. 기존 Transformer가 하나의 대형 신경망으로 기능하는 반면, MoE 모델은 더 작은 "전문가" 신경망으로 나뉩니다.


주어진 입력 유형에 따라 MoE 모델은 신경망에서 가장 관련성이 높은 전문가 경로만 선택적으로 활성화하도록 학습합니다. 이러한 전문화는 모델의 효율성을 대폭 향상시킵니다. Google은 Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 등의 연구를 통해 딥 러닝을 위한 MoE 기술의 초기 채택자이자 개척자였습니다.


모델 아키텍처의 최신 혁신을 통해 Gemini 1.5는 훈련 및 적용 측면에서 보다 효율적이면서도 보다 빠르게 복잡한 작업을 학습하고 품질을 유지할 수 있습니다. 이러한 효율성은 저희 팀이 Gemini의 보다 고급 버전을 그 어느 때보다도 빠르게 반복, 교육 및 제공하는 데 도움이 되고 있으며, 저희는 더 많은 최적화를 위해 노력하고 있습니다.



더 넓은 문맥, 더 유용한 기능


AI 모델의 "문맥 창"은 정보 처리에 사용되는 구성 요소인 토큰으로 구성됩니다. 토큰은 단어, 이미지, 비디오, 오디오 또는 코드의 전체 부분 또는 하위 섹션일 수 있습니다. 모델의 문맥 창이 클수록 주어진 프롬프트에서 더 많은 정보를 받아 처리할 수 있어 출력이 보다 일관되고, 관련성이 높고, 유용해집니다.


일련의 머신러닝 혁신을 통해, 저희는 Gemini 1.0의 원래 32,000토큰을 훨씬 넘어서 1.5 Pro의 문맥 창 용량을 증가시켰습니다. 이제 프로덕션 환경에서 최대 100만 개의 토큰을 실행할 수 있습니다.

즉, 1.5 Pro는 한 번에 방대한 양의 정보를 처리할 수 있는데, 여기에는 1시간 분량의 동영상, 11시간 분량의 오디오, 30,000행 이상의 코드가 포함된 코드베이스, 또는 700,000단어 이상의 문서도 포함됩니다. 당사의 연구에서는 최대 1천만 개의 토큰도 성공적으로 테스트했습니다.



방대한 양의 정보에 대한 복잡한 추론


1.5 Pro는 주어진 프롬프트 내에서 많은 양의 콘텐츠를 원활하게 분석, 분류 및 요약할 수 있습니다. 예를 들어 아폴로 11호의 달 탐사 임무에 대한 402페이지 분량의 대화록이 주어지면, 관련 문서 전체에서 발견된 대화, 이벤트 및 세부 정보에 대해 추론할 수 있습니다.


1ebec223e0dc2bae61ab96e74683707026f14aff861be72e495a8dc63c732c46506bb3c27f72934db3f15841d2b27bafdaa293db63


Gemini 1.5 Pro는 아폴로 11호의 달 탐사 임무에 대한 402페이지 분량의 대화록 내용을 이해하고 이에 대해 추론하여, 그 속에서 흥미로운 세부 정보를 식별할 수 있습니다.



다양한 방식에 대한 이해와 추론의 향상


1.5 Pro는 동영상 등 다양한 방식에 대해 매우 정교한 이해 및 추론 작업을 수행할 수 있습니다. 예를 들어, 무성영화인 버스터 키튼 영화가 44분간 제시된 경우, 이 모델은 다양한 줄거리 포인트와 이벤트를 정확하게 분석할 수 있으며, 심지어 쉽게 놓칠 수 있는 작은 세부 사항에 대해서도 추론할 수 있습니다.


1ebec223e0dc2bae61ab96e74683707026f14aff861be72e495a8dc63c702c46443dbe9ac39d558d34dca3b115a4a42e6cb1528695


Gemini 1.5 Pro는 실제 물체의 간단한 선화 참고 자료가 주어지면 44분 분량의 버스터 키튼 무성 영화 속 장면을 파악해낼 수 있습니다.



더 긴 코드 블록으로 관련 문제 해결 수행


1.5 Pro는 보다 긴 코드 블록에서 관련 있는 문제 해결 작업을 보다 효율적으로 수행할 수 있습니다. 100,000행 이상의 코드가 포함된 프롬프트가 제공되면, 모델은 여러 예시들을 조합해서 사고를 전개하고, 유용한 수정 사항을 제안하며, 코드의 다른 부분들이 어떻게 작동하는지에 대한 설명을 제공할 수 있습니다.


1ebec223e0dc2bae61ab96e74683707026f14aff861be72e495a8dc63c702c4203e13bd622a6027fe640a4a8eb7abb2894f5ea4686


Gemini 1.5 Pro는  유용한 솔루션, 수정 사항 및 설명을 제공하면서 100,000행의 코드를 통해 추론할 수 있습니다.



향상된 성능


텍스트, 코드, 이미지, 오디오 및 비디오에 대한 평가를 한 결과 1.5 Pro는 대형 언어 모델 (LLM) 개발에 사용되는 벤치마크 중 87%에서 1.0 Pro보다 우수한 성능을 보여줍니다. 동일한 벤치마크로 1.0 Ultra와 비교해도 비슷한 수준의 성능을 발휘합니다.


Gemini 1.5 Pro는 문맥 창이 증가하더라도 높은 수준의 성능을 유지합니다. 특정 사실이나 진술을 포함하는 작은 텍스트가 의도적으로 긴 텍스트 블록 내에 위치한 Needle In A Haystack (NIAH) 평가에서 1.5 Pro는 최대 1백만 토큰의 데이터 블록에서 99%의 확률로 해당 텍스트를 찾아냈습니다.


Gemini 1.5 Pro는 "문맥 내 학습 (in-context learning)" 능력 또한 인상적입니다. 즉, 별도의 세부 조정 없이 긴 프롬프트로 제공된 정보로부터 새로운 기술을 학습할 수 있습니다. 저희는 전 세계 화자가 200명 미만인 칼라망어의 문법서가 제공된 경우에도  Gemini 1.5 Pro가 같은 내용을 보고 학습한 사람과 유사한 수준으로 영어를 칼라망어로 번역하는 것을 보며, Machine Translation from One Book (MTOB) 벤치마크에서 이러한 기술을 평가했습니다.


1.5 Pro의 길이 있는 문맥 창은 대규모 모델 중에서도 최초로 사용된 것이므로,  저희는 새로운 능력 테스트를 위해 새로운 평가와 벤치마크를 계속 개발하고 있습니다.


자세한 내용은 Gemini 1.5 Pro 기술 보고서를 참조하세요.



광범위한 윤리 및 안전 테스트


Google의 AI 원칙과 강력한 안전 정책에 따라 저희는 당사의 모델이 광범위한 윤리 및 안전 테스트를 거치도록 하고 있습니다. 그런 다음, AI 시스템을 지속적으로 개선하기 위해 이러한 연구 결과를 지속적인 거버넌스 프로세스, 모델 개발 및 평가에 통합합니다.


작년 12월 Gemini 1.0 Ultra를 도입한 이래로, 저희 팀은 이 모델을 계속해서 개선하여 보다 광범위한 출시에 더욱 안전한 모델을 만들어 왔습니다. 저희는 또한 안전 위험에 대한 새로운 연구를 수행하고 다양한 잠재적 유해 요소를 테스트하기 위한 레드팀 기법을 개발했습니다.


1.5 Pro 출시를 앞두고, 저희는 Gemini 1.0 모델의 책임감 있는 배포 방식과 유사하게 콘텐츠 안전, 표현상의 유해성과 같은 다양한 부문에서 광범위한 평가를 수행했으며, 앞으로도 이러한 테스트를 계속 확대할 것입니다. 이 외에도 저희는 1.5 Pro의 새로운 길이 있는 문맥 기능을 더 잘 평가하기 위한 테스트를 추가로 개발하고 있습니다.



Gemini 모델로 구축 및 실험하기


저희는 새로운 차세대 Gemini 모델을 전 세계 수십억 명의 사람들, 개발자 및 기업에 책임감 있게 제공하기 위해 노력하고 있습니다.


오늘부터 AI Studio와 Vertex AI를 통해 개발자와 기업 고객에게 1.5 Pro의 제한된 미리보기를 제공합니다. 자세한 내용은 개발자용 Google 블로그와 Google Cloud 블로그를 참조하세요.


저희는 1.5 Pro를 보다 광범위한 출시할 준비가 될 때 표준 128,000토큰의 문맥 창과 함께 선보일 예정입니다. 저희는 모델을 개선함에 따라 조만간 표준 128,000 문맥 창에서 시작하여 최대 1백만 토큰까지 확장되는 가격대를 도입할 계획입니다.


조기 테스트 참가자는 테스트 기간 동안 엔 이 실험적인 기능을 무료로 사용할 수 있지만, 대기 시간이 길 것으로 예상됩니다. 속도 측면에서도 큰 개선이 예정되어 있습니다.


1.5 Pro 테스트에 관심 있는 개발자는 지금 AI Studio에서 등록하실 수 있으며, 기업 고객은 Vertex AI 계정 팀에 문의하실 수 있습니다.



- Gemini Ultra 번역