구글, AI 에이전트 시대 개막: Gemini 2.0 공개
구글은 정보 접근성과 유용성을 높이기 위한 노력의 일환으로, Gemini 2.0 모델을 공개하며 AI 에이전트 시대를 선도한다. Gemini 2.0은 이전 모델보다 향상된 멀티모달 기능 (이미지, 오디오 출력 포함), 도구 사용 능력을 갖춰 사용자를 위한 만능 비서에 한 걸음 더 다가갔다.
Gemini 2.0의 핵심 특징:
Gemini 2.0 Flash: 빠른 응답 속도와 향상된 성능으로 개발자들에게 제공되며, 멀티모달 입출력 및 도구 사용을 지원한다.
AI 에이전트: Gemini 2.0 기반의 에이전트들은 사용자의 지시에 따라 복잡한 작업을 수행하고, 여러 단계를 미리 계획하며, 사용자를 보조하는 기능을 제공한다.
Project Astra: 실시간 대화, 도구 사용, 기억력 향상, 지연 시간 감소 기능을 갖춘 범용 AI 비서 연구 프로젝트. 안경 등 다양한 폼팩터에 적용 가능성을 모색 중이다.
Project Mariner: 웹 브라우저에서 정보를 이해하고 작업을 수행하는 연구 프로젝트. 웹 페이지의 픽셀과 요소를 인식하여 사용자를 대신해 복잡한 작업을 처리한다.
Jules: 개발자를 위한 AI 기반 코드 에이전트. 코드 개발을 보조하고 프로젝트 계획 및 실행을 지원한다.
게임 에이전트: 게임 환경을 이해하고 실시간으로 전략을 제안하는 AI 에이전트.
로봇 에이전트: 공간 추론 능력을 활용하여 물리적 환경에서 사용자를 보조하는 AI 에이전트.
AI Overviews 업데이트: Gemini 2.0의 향상된 추론 능력을 활용하여 더욱 복잡한 질문 및 멀티모달 쿼리를 처리한다.
구글은 책임감 있는 AI 개발을 강조하며:
내부 안전 검토 위원회와 협력하여 잠재적 위험을 식별 및 완화한다.
AI 보조 레드 팀 접근법을 통해 안전성을 강화한다.
사용자 정보 보호를 위한 개인 정보 제어 기능을 제공한다.
악의적인 명령으로부터 사용자를 보호하기 위한 연구를 진행한다.
Gemini 2.0은 구글의 AI 기술 진보와 더불어 책임감 있는 AI 개발을 향한 노력을 보여준다. 앞으로 Gemini 2.0은 다양한 분야에서 새로운 가능성을 열고, AI 에이전트 시대의 주역이 될 것으로 기대된다.
공식 벤치:
Gemini 2.0 Flash Experimental은 대부분의 영역에서 이전 버전 모델보다 향상된 성능을 제공하며, 특히 코드 생성 및 수학 문제 해결 능력에서 큰 발전을 보입니다. 다만 MRCR (1M) 벤치마크와 오디오 번역에서 Gemini 1.5 Pro 002가 더 나은 성능을 보이고 있습니다.
AI Studio에 뜬 내용들
가장 적합한 분야 다중 모드 이해, 다중 모드 생성, 네이티브 도구 사용
사용 사례 10,000줄의 코드 처리, 검색과 같은 도구를 네이티브로 호출, 텍스트와 이미지를 혼합하여 생성 및 인지
지식 컷오프 2024년 8월
타이머 속도 제한
속도 제한 분당 15회 요청 (15 RPM)
무료 사용 제한 분당 15회 요청, 하루 1500회 요청 (15 RPM, 1500 req/day)
요약:
이 표는 특정 AI 모델의 기능과 사용 제한에 대한 정보를 제공합니다. 이 모델은 텍스트, 이미지 등 다양한 형태의 정보를 이해하고 생성하는 데 뛰어나며, 외부 도구를 자체적으로 사용할 수 있습니다. 인지 능력이 뛰어나며, 2024년 8월까지의 데이터를 학습했습니다. 무료 사용자는 분당 15회, 하루 1500회로 요청 횟수가 제한됩니다.
왼쪽 메뉴에 Stream Realtime이란 거 생겼는데 들어가면 2.0 Flash만 선택할 수 있고, 마이크 연결해서 실시간 보이스 대화 가능하고
또 놀랍게도 실시간 카메라 혹은 PC화면 연동하면서 대화 가능
지렸음…… 해보길!!!
이제 하스스톤도 실시간 훈수 받으면서 쌉가능 ㄷㄷ
물론 현생에서도 훈수 받음 ㄷㄷ
그리고 Starter Apps 들어가면 영상 파일 넣어서 분석하는 것도 있고, 지도 펼쳐서 같이 대화하면서 여러가지 해볼 수도 있음
파인튜닝...
크롬 익스텐션으로 Project Mariner라는 거 있는데 바로 에이전트임 ㄷㄷ
자세한 내용은 아래의 영상들
https://www.youtube.com/watch?v=Fs0t6SdODd8&list=PLqYmG7hTraZD8qyQmEfXrJMpGsQKk-LCY

We're announcing Gemini 2.0, our most capable AI model yet that’s built for the agentic era. Gemini 2.0 brings enhanced performance, more multimodality, and ...
www.youtube.com
총평:
똥트만이 변비마냥 찔끔찔끔 쌀 때, 순대로 피채워는 장염으로 인한 설사를 아주 그냥 프쓔아아아아아! 하고 하루만에 냅다 싸질렀다.
GPT옴니처럼 이것도 옴니모델로서 일관서 ㅇ이미지 생성 가능한가 본데
스트림 리얼타임은 지렸다 진짜
실시간 스트림이 체감이 미쳤음 진자
순대로 피채워 ㅡㅋㅋㅋ
리얼타임은 쌌다
이거보고 입고있던 연구복 찢고 지도교수 쌍판에다 자퇴서 던졌다
뭣
시발 오늘 온라인 게임은 곧있으면 다 AI가 지배할거라고 글썼는데 오늘 이런게 나오네 뭔 ㅋㅋㅋㅋㅋ
특이점 이후 오늘 상상한 기술이 다음날 현실에서 바로 튀어나오는거 간접체험하는 기분이네 기술발전속도 지금의 수천배돼서 ㄹㅇ 실현되면 뭔느낌이려나ㅋㅋ
싹 다 구속시켜!!!!!!!!
아니 씨발 써보니까 개병신이잖아 근들갑 노 너네 써보긴 한거임?
아이언맨 자비스 마냥 지가 주도적으로 질문을 안해도 알아서 말 걸어 주는건 아직 안되나 리얼타임이라 이새끼가 말 걸어주는줄 아직은 대화까지는 못갔고 대답 수준이네 챗봇 에이전트를 가르는 기준이 수동적 대답만 가능한가 주도적으로 대화도 가능한가 차이라고 생각하는데 오류나서 끊기는건 체험판이니까 그렇다 쳐도 글 보고 에이전트 되는줄 알고 풀발해서 달려들었는데 아쉽네 그래도 눈이 생기니까 활용도 확 올라가긴함
그런건 사용량 낭비 감안하고 API로 주기적 호출을 하는 수밖에 없음
씨발 에이전트라고?