[인공지능] Google Gemini Ultra/ Pro/ Nano: 구글 모바일 AI 모델
[인공지능] Google Gemini Ultra/ Pro/ Nano: 구글 모바일 AI 모델 에 대해 리뷰하려고 합니다.
Google Gemini: OpenAI ChatGPT 동등 스펙
Google Gemini는 Google의 새로운 AI 모델 제품군입니다. Google은 거의 10년 동안 AI 연구 분야의 선두주자였으며 LLM (대형 언어 모델 )의 핵심 기술 중 하나인 변환기 아키텍처를 개발했음에도 불구하고 OpenAI와 해당 GPT 모델이 선점효과로 인공지능 서비스를 주도하고 있습니다.
Gemini Nano, Gemini Pro 및 Gemini Ultra는 따라잡기 위한 Google의 시도입니다. 세 가지 버전 모두 다중 모드이므로 텍스트 외에도 이미지, 오디오, 비디오 및 코드를 이해하고 작업할 수 있습니다.
챗봇은 이전에 PaLM을 기반으로 했으며 초기에는 LaMDA 대규모 언어 모델 제품군을 기반으로 했는데, LaMDA는 2021년에 개발되어 발표되었지만 실제 대중에게 공개되지는 않았습니다.
2022년 11월 OpenAI의 ChatGPT 출시와 그에 따른 인기로 인해 Google 경영진은 당황하여 당황하게 되었고, 그 후 몇 달 동안 대대적인 대응을 촉발해서, 2023년 2월 바드 Bard를 출시합니다. 이어서, 5월 2023년 Google I/O 기조연설 에서 주목을 받았고, 12월에는 Gemini LLM으로 업그레이드됩니다.
Bard와 Duet AI는 2024년 2월 Gemini 브랜드로 통합되었습니다.
구글 제미나이 Google Gemini : 멀티모달 대응한 생성형 AI 서비스
Google Gemini는 OpenAI의 GPT와 같은 AI 모델 제품군입니다.
Gemini는 다른 LLM처럼 텍스트를 이해하고 생성할 수 있지만 이미지, 오디오, 비디오 및 코드와 같은 다른 종류의 정보를 기본적으로 이해하고, 작동하고, 결합할 수도 있습니다.
예를 들어, "이 사진에서 무슨 일이 일어나고 있나요?"와 같은 메시지를 보낼 수 있습니다. 이미지를 첨부하면 이미지를 설명하고 더 복잡한 정보를 요청하는 추가 프롬프트에 응답합니다.
공개된 모든 것이 Google Gemini를 더욱 흥미롭게 만들지만 완전히 독창적이지는 않습니다 . GPT-4 Vision(GPT-4V)은 GPT-4의 LLM 기능에 이미지 처리를 추가하는 OpenAI의 유사한 다중 모드 모델입니다.
Google Gemini 3개 버전 : Gemina Ultra vs Gemini Pro vs Gemini Nano
Gemini는 거의 모든 장치에서 실행되도록 설계되었는데, Google은 Gemini Ultra, Gemini Pro, Gemini Nano의 세 가지 버전이 데이터 센터에서 스마트폰에 이르기까지 모든 장치에서 효율적으로 실행될 수 있다고 주장합니다.
Gemini Ultra : ChatGPT 4.0 능가 스펙
Gemini Ultra는 가장 복잡한 작업을 위해 설계된 가장 큰 모델입니다.
MMLU, Big-Bench Hard, HumanEval과 같은 LLM 벤치마크에서는 GPT-4를 능가했으며, MMMU, VQAv2, MathVista와 같은 멀티모달 벤치마크에서는 GPT-4V를 능가했습니다. 아직 테스트 중이고 2025년 에 출시될 예정입니다.
Gemina Pro : Pro 1.0 -> Pro 1.5 으로 ChatGPT 4.0 10배 수준
Gemini Pro는 확장성과 성능 사이의 균형을 제공합니다.
현재 Google Bard는 더 복잡한 쿼리를 처리하기 위해 특별히 훈련된 버전을 사용하는데, 독립적인 테스트에서 Gemini Pro는 "해당 GPT 3.5 Turbo 모델에 가깝지만 약간 떨어지는 정확도"를 달성하는 것으로 나타났습니다.
Gemini Nano : 스마트폰 탑재 가능버전
Gemini Nano 는 스마트폰 및 기타 모바일 장치에서 로컬로 작동하도록 설계되었습니다. 이론적으로 이를 통해 스마트폰은 외부 서버에 연결해야 하는 경우보다 간단한 프롬프트에 응답하고 텍스트 요약과 같은 작업을 훨씬 빠르게 수행할 수 있습니다. 현재 Gemini Nano는 Google Pixel 8 Pro에서만 사용할 수 있으며 Gboard의 스마트 답장과 같은 기능을 지원합니다 .
Gemini 작동원리 : 다중모드 AI + RLHF 튜닝
Google에 따르면 Gemini 이전에는 대부분의 다중 모드 AI 모델이 개별적으로 훈련된 여러 AI 모델을 결합하여 개발되었습니다. 예를 들어, 텍스트와 이미지 처리는 별도로 훈련된 다음 진정한 다중 모드 모델의 기능을 근사화할 수 있는 단일 모델로 결합됩니다.
Gemini를 통해 그들은 기본적으로 다중 모드 모델을 만들기 시작했습니다. 처음부터 수조 개의 텍스트 토큰은 물론 이미지(텍스트 설명과 함께), 비디오, 오디오가 포함된 데이터세트에 대해 사전 훈련되었습니다.
Google Gemini vs LLM 모델
다중 모드 모델 제품군인 Gemini는 일대일 비교가 어렵습니다. 그러나 대략적으로 말하면 해당 모델은 동등한 GPT 모델만큼 좋은 텍스트를 이해하고 생성하므로 Llama , Claude 및 대부분의 다른 사용 가능한 LLM 보다 앞서 있습니다 .
예를 들어, Gemini Ultra는 아직 사용할 수 없지만 대부분의 벤치마크에서 GPT-4 및 GPT-4V보다 뛰어난 성능을 보이는 반면, 독립적인 연구에 따르면 Gemini Pro는 여러 동일한 벤치마크에서 GPT-3.5 터보를 추적하는 중 입니다.