[전략_노트]/[전략노트_지식]

[인공지능] Google Gemini Ultra/ Pro/ Nano: 구글 AI 모델 제품군

스테판 in US 2024. 2. 22. 18:15

[인공지능] Google Gemini Ultra/ Pro/ Nano: 구글 AI 모델 제품군

 

Google Gemini
Google Gemini (source: newsroompost.com/)

 

 

[인공지능] Google Gemini Ultra/ Pro/ Nano: 구글 AI 모델 제품군 에 대해 리뷰하려고 합니다.

 

Google Gemini : OpenAI ChatGPT 능가하는 스펙 

Google Gemini는 Google의 새로운 AI 모델 제품군입니다. Google은 거의 10년 동안 AI 연구 분야의 선두주자였으며 LLM (대형 언어 모델 )의 핵심 기술 중 하나인 변환기 아키텍처를 개발했음에도 불구하고 OpenAI와 해당 GPT 모델이 선점효과로 인공지능 서비스를 주도하고 있습니다.

 

Gemini Nano, Gemini Pro 및 Gemini Ultra는 따라잡기 위한 Google의 시도입니다. 세 가지 버전 모두 다중 모드이므로 텍스트 외에도 이미지, 오디오, 비디오 및 코드를 이해하고 작업할 수 있습니다.  

 

챗봇은 이전에 PaLM을 기반으로 했으며 초기에는 LaMDA 대규모 언어 모델 제품군을 기반으로 했는데, LaMDA는 2021년에 개발되어 발표되었지만 실제 대중에게 공개되지는 않았습니다.

 

2022년 11월 OpenAI의 ChatGPT 출시와 그에 따른 인기로 인해 Google 경영진은 당황하여 당황하게 되었고, 그 후 몇 달 동안 대대적인 대응을 촉발해서, 2023년 2월 바드 Bard를 출시합니다. 이어서, 5월 2023년 Google I/O 기조연설 에서 주목을 받았고, 12월에는 Gemini LLM으로 업그레이드됩니다.

 

Bard와 Duet AI는 2024년 2월 Gemini 브랜드로 통합되었습니다.

 

구글 제미나이 Google Gemini : 멀티모달 대응한 생성형 AI 서비스

Google Gemini는 OpenAI의 GPT와 같은 AI 모델 제품군입니다.

 

Gemini는 다른 LLM처럼 텍스트를 이해하고 생성할 수 있지만 이미지, 오디오, 비디오 및 코드와 같은 다른 종류의 정보를 기본적으로 이해하고, 작동하고, 결합할 수도 있습니다.

 

예를 들어, "이 사진에서 무슨 일이 일어나고 있나요?"와 같은 메시지를 보낼 수 있습니다. 이미지를 첨부하면 이미지를 설명하고 더 복잡한 정보를 요청하는 추가 프롬프트에 응답합니다.

 

공개된 모든 것이 Google Gemini를 더욱 흥미롭게 만들지만 완전히 독창적이지는 않습니다 . GPT-4 Vision(GPT-4V)은 GPT-4의 LLM 기능에 이미지 처리를 추가하는 OpenAI의 유사한 다중 모드 모델입니다.

 

Google Gemini 3개 버전 : Gemina Ultra vs Gemini Pro vs Gemini Nano

Gemini는 거의 모든 장치에서 실행되도록 설계되었는데, Google은 Gemini Ultra, Gemini Pro, Gemini Nano의 세 가지 버전이 데이터 센터에서 스마트폰에 이르기까지 모든 장치에서 효율적으로 실행될 수 있다고 주장합니다.

 

Google Gemini 비교
Google Gemini 비교 (source: generativeai.pub/)

 

Gemini Ultra : ChatGPT 4.0 능가 스펙

Gemini Ultra는 가장 복잡한 작업을 위해 설계된 가장 큰 모델입니다.

MMLU, Big-Bench Hard, HumanEval과 같은 LLM 벤치마크에서는 GPT-4를 능가했으며, MMMU, VQAv2, MathVista와 같은 멀티모달 벤치마크에서는 GPT-4V를 능가했습니다. 아직 테스트 중이고 2025년 에 출시될 예정입니다.

 

Gemina Pro : Pro 1.0 -> Pro 1.5 으로 ChatGPT 4.0 10배 수준

Gemini Pro는 확장성과 성능 사이의 균형을 제공합니다.

현재 Google Bard는 더 복잡한 쿼리를 처리하기 위해 특별히 훈련된 버전을 사용하는데, 독립적인 테스트에서 Gemini Pro는 "해당 GPT 3.5 Turbo 모델에 가깝지만 약간 떨어지는 정확도"를 달성하는 것으로 나타났습니다.

 

처음 발표된 Gemini Pro 1.0 token 숫자가 32k로 ChatGPT 3.5 수준이지만, 바로 몇개월 만에 추가로 발표한 Gemini Pro 1.5 token 숫자 1M 로, 단숨에 ChatGPT 3.5 및 4.0을 능가하는 수준이 됩니다.

즉, ChatGPT 4.0 Turbo token이 128k 로, Gemini Pro 1.5는 1M로 거의 10배 차이가 나는 것으로 발표되었네요.

 

Gemina Pro
Gemina Pro (source: medium.com/)

 

Gemini Nano : 스마트폰 탑재 가능버전

Gemini Nano 는 스마트폰 및 기타 모바일 장치에서 로컬로 작동하도록 설계되었습니다. 이론적으로 이를 통해 스마트폰은 외부 서버에 연결해야 하는 경우보다 간단한 프롬프트에 응답하고 텍스트 요약과 같은 작업을 훨씬 빠르게 수행할 수 있습니다. 현재 Gemini Nano는 Google Pixel 8 Pro에서만 사용할 수 있으며 Gboard의 스마트 답장과 같은 기능을 지원합니다 .

 

Google은 가장 작은 모델인 Nano에 두 가지 버전이 있다고 주장합니다. 하나는 18억 개의 매개변수를 가지고 있고 다른 하나는 32억 5천만 개의 매개변수를 가지고 있습니다. Google은 더 큰 모델에 얼마나 많은 매개변수가 있는지 공개하지 않지만 GPT-3 에는 1,750억 개의 매개변수가 있는 반면 Meta의 Llama 2 제품군에는 최대 650억 개의 매개변수가 있는 모델이 있습니다 .

 

Google Gemini Ultra/ Pro/ Nano
Google Gemini : Ultra, Pro, Nano (source: spearhead.so/)

 

 

Gemini 작동원리 : 다중모드 AI + RLHF 튜닝

Google에 따르면 Gemini 이전에는 대부분의 다중 모드 AI 모델이 개별적으로 훈련된 여러 AI 모델을 결합하여 개발되었습니다. 예를 들어, 텍스트와 이미지 처리는 별도로 훈련된 다음 진정한 다중 모드 모델의 기능을 근사화할 수 있는 단일 모델로 결합됩니다.

 

Gemini를 통해 그들은 기본적으로 다중 모드 모델을 만들기 시작했습니다. 처음부터 수조 개의 텍스트 토큰은 물론 이미지(텍스트 설명과 함께), 비디오, 오디오가 포함된 데이터세트에 대해 사전 훈련되었습니다.

 

그런 다음 RLHF(Reinforcement Learning with Human Feedback)와 같은 기술을 통해 더욱 미세 조정되어 모델이 더 좋고 안전한 응답을 생성할 수 있게 되었습니다.

 

Google은 이 모든 학습 데이터가 어디서 왔는지 밝히지 않지만 Common Crawl 과 같은 웹사이트 아카이브, LAOIN-5B 와 같은 이미지-텍스트 데이터베이스 및 Google Books 전체 와 같은 독점 데이터 소스가 포함될 가능성이 높습니다 .

 

이 모든 것을 통해 Gemini 모델은 ChatGPT가 DALL·E와 GPT의 조합을 사용하여 수행할 수 있는 것처럼 텍스트와 생성적으로 생성된 이미지 모두로 프롬프트에 응답할 수 있습니다.

 

Google Gemini vs  LLM 모델

다중 모드 모델 제품군인 Gemini는 일대일 비교가 어렵습니다. 그러나 대략적으로 말하면 해당 모델은 동등한 GPT 모델만큼 좋은 텍스트를 이해하고 생성하므로 Llama , Claude 및 대부분의 다른 사용 가능한 LLM 보다 앞서 있습니다 .

 

예를 들어, Gemini Ultra는 아직 사용할 수 없지만 대부분의 벤치마크에서 GPT-4 및 GPT-4V보다 뛰어난 성능을 보이는 반면, 독립적인 연구에 따르면 Gemini Pro는 여러 동일한 벤치마크에서 GPT-3.5 터보를 추적하는 중 입니다.

 

멀티모달 인공지능 비교 테이블
멀티모달 인공지능 비교 테이블 (source: google)

 

 

 

 

 

[인공지능] 대화형 인공지능 챗봇: Google Bard vs MS ChatGPT

[인공지능] 대화형 인공지능 챗봇: Google Bard vs MS ChatGPT [인공지능] 대화형 인공지능 챗봇: Google Bard vs MS ChatGPT 에 대해 리뷰하려고 합니다. 2022년 11월 발표된 MS ChatGPT가 인터넷 업계를 강타하고 있

stephan-review.tistory.com

 

[인공지능] OpenAI SORA: Text-to-Video 생성형 AI, 소라 공개

[인공지능] OpenAI SORA: Text-to-Video 생성형 AI, 소라 공개 OpenAI SORA: Text-to-Video (News Video) OpenAI SORA: Text-to-Video (source: NBC News) [인공지능] OpenAI SORA: Text-to-Video 생성형 AI, 소라 공개 에 대해 리뷰하려고 합

stephan-review.tistory.com

 

[인공지능] OpenAI: ChatGPT 모델 진화

[인공지능] OpenAI: ChatGPT 모델 진화 [인공지능] OpenAI: ChatGPT 모델 진화 에 대해 리뷰하려고 합니다. 샘 알트만, 유태인 출신으로 스탠퍼드 대학 CS 중퇴 우선, 샘 알트만 Samuel Altman 은 1985년 미국 시

stephan-review.tistory.com

 

[인공지능] 대화형 인공지능 챗봇 모델: ChatGPT

[인공지능] 대화형 인공지능 챗봇 모델: ChatGPT [인공지능] 대화형 인공지능 챗봇 모델: ChatGPT 에 대해 리뷰하려고 합니다. 2022년 11월 OpenAI가 발표한 ChatGPT 혁신이 계속되는데, ChatGPT 대화형 인공지

stephan-review.tistory.com

 

[인공지능] 챗GPT 스토어, 1월 10일 오픈: ChatGPT Store, Open

[인공지능] 챗GPT 스토어, 1월 10일 오픈: ChatGPT Store, Open [인공지능] 챗GPT 스토어, 1월 10일 오픈: ChatGPT Store, Open 에 대해 리뷰하려고 합니다. 2024년 1월 10일 ChatGPT Store 오픈 ChatGPT는 다양한 기술을 가

stephan-review.tistory.com