Google Gemini: 제너레이티브 AI 파워하우스

Gemini 공개: Google의 차세대 AI 제품군

Gemini는 차세대 AI 모델에 대한 Google의 야심 찬 시도입니다. DeepMind와 Google Research, Google의 주요 AI 연구소의 협력을 통해 개발된 Gemini는 단일 개체가 아니라 특정 작업과 성능 수준에 맞게 조정된 모델 제품군입니다. 이 제품군에는 다음이 포함됩니다.

  • Gemini Ultra: 상당한 계산 능력이 필요한 매우 복잡한 작업을 위해 설계된 제품군 중 가장 강력한 모델입니다. (현재 미출시)
  • Gemini Pro: Ultra보다 작지만 광범위한 작업을 처리할 수 있는 강력한 모델입니다. 최신 버전인 Gemini 2.0 Pro는 현재 Google의 주력 제품입니다.
  • Gemini Flash: 속도와 효율성을 우선시하는 Pro의 간소화된 ‘증류’ 버전입니다.
  • Gemini Flash-Lite: Gemini Flash의 약간 축소되고 더 빠른 버전입니다.
  • Gemini Flash Thinking: ‘추론’ 능력을 보여주는 모델입니다.
  • Gemini Nano: 장치에서 오프라인으로 작동하도록 설계된 두 개의 소형 모델인 Nano-1과 약간 더 강력한 Nano-2로 구성됩니다.

모든 Gemini 모델의 특징은 고유한 멀티모달 특성입니다. Google의 LaMDA와 같이 텍스트 데이터로만 학습된 모델과 달리 Gemini 모델은 다양한 데이터 유형을 처리하고 분석하는 데 능숙합니다. 공개, 독점 및 라이선스가 부여된 오디오, 이미지, 비디오, 코드베이스 및 여러 언어로 된 텍스트를 포함하는 방대한 데이터 세트에 대해 학습되었습니다.

이러한 멀티모달 특성 덕분에 Gemini는 텍스트 전용 모델의 한계를 뛰어넘을 수 있습니다. LaMDA는 텍스트 기반 입력 및 출력으로 제한되지만 Gemini 모델, 특히 Flash 및 Pro의 최신 버전은 텍스트와 함께 이미지와 오디오를 기본적으로 생성할 수 있습니다.

그러나 데이터 소유자의 명시적인 동의 없이 공개적으로 사용 가능한 데이터에 대해 AI 모델을 학습시키는 것의 윤리적, 법적 의미는 여전히 복잡한 문제입니다. Google은 특정 Google Cloud 고객을 잠재적인 소송으로부터 보호하기 위해 AI 면책 정책을 제공하지만 이 정책에는 제한이 있습니다. 특히 Gemini를 상업적 목적으로 사용하려는 사용자는 주의해야 합니다.

Gemini 앱과 Gemini 모델: 차이점 이해

Gemini 모델과 웹 및 모바일 플랫폼에서 사용할 수 있는 Gemini 앱(이전의 Bard)을 구별하는 것이 중요합니다.

Gemini 앱은 다양한 Gemini 모델에 연결하고 사용자 친화적인 챗봇과 유사한 인터페이스를 제공하는 클라이언트 역할을 합니다. Google의 제너레이티브 AI 기능과 상호 작용하기 위한 프런트 엔드 역할을 합니다.

Android 기기에서 Gemini 앱은 Google 어시스턴트 앱을 대체합니다. iOS에서는 Google 및 Google 검색 앱이 Gemini 클라이언트 역할을 합니다.

Android 사용자는 Gemini 오버레이를 호출하여 YouTube 동영상과 같이 화면에 표시된 콘텐츠에 대한 질문을 할 수 있습니다. 이 오버레이는 지원되는 스마트폰의 전원 버튼을 길게 누르거나 ‘Hey Google’ 음성 명령을 사용하여 트리거됩니다.

Gemini 앱은 이미지, 음성 명령 및 텍스트를 입력으로 받아들일 수 있습니다. 직접 업로드하거나 Google Drive에서 가져온 PDF와 같은 파일을 처리하고 이미지를 생성할 수 있습니다. 사용자가 동일한 Google 계정에 로그인되어 있으면 모바일에서 Gemini 앱으로 시작된 대화가 웹의 Gemini와 원활하게 동기화됩니다.

Gemini Advanced: 프리미엄 AI 기능 잠금 해제

Gemini 앱은 Gemini 모델의 기능을 활용하는 유일한 관문이 아닙니다. Google은 Gmail 및 Google Docs를 포함한 핵심 애플리케이션 및 서비스에 Gemini 기반 기능을 점진적으로 통합하고 있습니다.

이러한 기능을 최대한 활용하려면 일반적으로 Google One AI Premium Plan이 필요합니다. 기술적으로 Google One의 구성 요소인 이 요금제는 월 20달러이며 Docs, Maps, Slides, Sheets, Drive 및 Meet와 같은 Google Workspace 애플리케이션 내에서 Gemini에 대한 액세스 권한을 부여합니다. 또한 ‘Gemini Advanced’를 잠금 해제하여 Gemini 앱 내에서 Google의 더 정교한 Gemini 모델에 액세스할 수 있습니다.

Gemini Advanced 사용자는 새로운 기능과 모델에 대한 우선 액세스, Gemini 내에서 직접 Python 코드를 실행하고 수정하는 기능, PDF를 AI 생성 팟캐스트로 변환하는 Google 도구인 NotebookLM의 확장된 제한과 같은 추가 혜택을 누릴 수 있습니다. Gemini Advanced에 최근 추가된 기능은 사용자 기본 설정을 저장하고 Gemini가 과거 대화를 참조하여 현재 상호 작용에 대한 컨텍스트를 제공할 수 있는 메모리 기능입니다.

Gemini Advanced만의 가장 매력적인 기능 중 하나는 ‘Deep Research’입니다. 이 기능은 향상된 추론 기능을 갖춘 Gemini 모델을 활용하여 자세한 브리핑을 생성합니다. ‘주방을 어떻게 리모델링해야 할까요?’와 같은 프롬프트에 대한 응답으로 Deep Research는 다단계 연구 계획을 수립하고 웹을 검색하여 포괄적인 답변을 컴파일합니다.

Gmail 내에서 Gemini는 사이드 패널에 상주하며 이메일을 작성하고 메시지 스레드를 요약할 수 있습니다. Docs에는 유사한 패널이 나타나 콘텐츠 작성, 개선 및 브레인스토밍을 지원합니다. Slides에서 Gemini는 슬라이드와 사용자 지정 이미지를 생성합니다. Google Sheets에서는 데이터 추적, 구성 및 수식 생성을 지원합니다.

Gemini의 존재는 Google Maps로 확장되어 지역 비즈니스에 대한 리뷰를 집계하고 외국 도시 방문을 위한 여정 제안과 같은 추천을 제공합니다. 챗봇의 기능은 Drive에도 적용되어 파일과 폴더를 요약하고 프로젝트에 대한 간결한 정보를 제공할 수 있습니다.

Gemini는 최근 Google의 Chrome 브라우저에 AI 쓰기 도구로 통합되었습니다. 이 도구는 완전히 새로운 콘텐츠를 만들거나 기존 텍스트를 다시 작성하는 데 사용할 수 있으며 현재 웹 페이지의 컨텍스트를 고려하여 맞춤형 추천을 제공합니다.

이러한 핵심 애플리케이션 외에도 Gemini의 흔적은 Google의 데이터베이스 제품, 클라우드 보안 도구 및 앱 개발 플랫폼(Firebase 및 Project IDX 포함)에서 찾을 수 있습니다. 또한 Google Photos(자연어 검색 쿼리), YouTube(동영상 아이디어 브레인스토밍) 및 Meet(캡션 번역)와 같은 앱의 기능을 지원합니다.

코드 완성 및 생성을 위한 Google의 AI 기반 도구 모음인 Code Assist(이전의 Duet AI for Developers)는 계산 집약적인 작업에 Gemini를 사용합니다. 마찬가지로 Google의 보안 제품(예: Gemini in Threat Intelligence)은 Gemini를 활용하여 잠재적으로 악성 코드를 분석하고 위협 및 침해 지표에 대한 자연어 검색을 용이하게 합니다.

Gemini Extensions 및 Gems: AI 경험 맞춤 설정

Gemini Advanced 사용자는 데스크톱 및 모바일 플랫폼 모두에서 액세스할 수 있는 Gemini 모델로 구동되는 맞춤형 챗봇인 ‘Gems’를 만들 수 있습니다. Gems는 ‘당신은 나의 러닝 코치입니다. 매일 러닝 계획을 알려주세요’와 같은 자연어 설명에서 생성할 수 있으며 다른 사용자와 공유하거나 비공개로 유지할 수 있습니다.

Gemini 앱은 ‘Gemini extensions’를 통해 다양한 Google 서비스와 통합할 수 있습니다. 이러한 확장을 통해 Gemini는 Drive, Gmail, YouTube 및 기타 서비스와 상호 작용하여 ‘마지막 세 개의 이메일을 요약해 주시겠습니까?’와 같은 쿼리에 응답할 수 있습니다.

Gemini Live: 심층적인 음성 대화 참여

‘Gemini Live’는 몰입형 경험을 제공하여 사용자가 Gemini와 자세한 음성 대화를 나눌 수 있도록 합니다. 이 기능은 모바일 기기의 Gemini 앱과 Pixel Buds Pro 2에서 사용할 수 있으며, 휴대폰이 잠겨 있을 때도 액세스할 수 있습니다.

Gemini Live를 사용하면 사용자는 Gemini가 말하는 동안 중단하여 명확한 질문을 할 수 있으며 챗봇은 실시간으로 음성 패턴에 적응합니다. Live는 또한 이벤트 준비, 브레인스토밍 및 기타 작업을 지원하는 가상 코치 역할을 하도록 설계되었습니다. 예를 들어 Live는 면접 중에 강조할 기술을 제안하고 대중 연설 팁을 제공할 수 있습니다.

Gemini for Teens: 학생을 위한 맞춤형 AI 경험

Google은 십 대 학생들을 위해 특별히 맞춤화된 Gemini 경험을 제공합니다.

이 십 대 중심 버전의 Gemini에는 맞춤형 온보딩 프로세스 및 AI 리터러시 가이드를 포함한 ‘추가 정책 및 안전 장치’가 통합되어 있습니다. 이러한 수정 사항 외에도 웹에서 정보를 상호 참조하여 Gemini의 응답 정확성을 확인하는 ‘이중 확인’ 기능을 포함하여 표준 Gemini 경험과 매우 유사합니다.

Gemini 모델의 기능 탐색

Gemini 모델의 멀티모달 특성은 음성 전사에서 실시간 이미지 및 비디오 캡션에 이르기까지 광범위한 작업을 수행할 수 있도록 합니다. 이러한 기능 중 상당수는 이미 Google 제품에 통합되었으며 가까운 시일 내에 추가 개선이 약속되었습니다.

그러나 Google은 경쟁사와 마찬가지로 인코딩된 편향 및 정보 조작 경향(환각)과 같은 제너레이티브 AI 기술과 관련된 몇 가지 고유한 문제를 완전히 해결하지 못했다는 점을 인정하는 것이 중요합니다. 이러한 제한 사항은 특히 중요한 애플리케이션에 Gemini 사용을 평가할 때 고려해야 합니다.

Gemini Pro의 능력

Google은 최신 Pro 모델인 Gemini 2.0 Pro가 코딩 및 복잡한 프롬프트 처리를 위한 가장 진보된 제품이라고 주장합니다. 2.0 Pro는 프로그래밍, 추론, 수학 및 사실 정확성을 평가하는 벤치마크에서 이전 버전인 Gemini 1.5 Pro를 능가합니다.

Google의 Vertex AI 플랫폼 내에서 개발자는 미세 조정 또는 ‘접지’를 통해 특정 컨텍스트 및 사용 사례에 맞게 Gemini Pro를 사용자 지정할 수 있습니다. 예를 들어 Pro(다른 Gemini 모델과 함께)는 Moody’s, Thomson Reuters, ZoomInfo 및 MSCI와 같은 타사 제공업체의 데이터를 사용하거나 광범위한 지식 기반 대신 기업 데이터 세트 또는 Google 검색에서 정보를 가져오도록 지시할 수 있습니다. Gemini Pro는 또한 외부 타사 API에 연결하여 백오피스 워크플로 자동화와 같은 특정 작업을 수행할 수 있습니다.

Google의 AI Studio 플랫폼은 Pro를 사용하여 구조화된 채팅 프롬프트를 만들기 위한 템플릿을 제공합니다. 개발자는 모델의 창의적인 범위를 제어하고, 톤과 스타일을 안내하는 예제를 제공하고, Pro의 안전 설정을 미세 조정할 수 있습니다.

Gemini Flash: 경량 효율성 및 Gemini Flash Thinking의 추론 능력

Gemini 2.0 Flash는 Google 검색 및 기타 외부 API를 사용할 수 있습니다. 더 작지만 코딩 및 이미지 분석을 측정하는 벤치마크에서 더 큰 1.5 모델 중 일부보다 성능이 뛰어납니다. Gemini Pro의 파생물인 Flash는 효율성을 위해 설계되었으며 좁고 빈도가 높은 제너레이티브 AI 작업을 대상으로 합니다.

Google은 요약, 채팅 애플리케이션, 이미지 및 비디오 캡션, 긴 문서 및 테이블에서 데이터 추출과 같은 애플리케이션에 대한 Flash의 적합성을 강조합니다. 한편, Flash의 더 컴팩트한 반복인 Gemini 2.0 Flash-Lite는 Google에 따르면 동일한 가격과 속도를 유지하면서 성능 면에서 Gemini 1.5 Flash를 능가합니다.

작년 12월, Google은 ‘추론’ 기능을 갖춘 Gemini 2.0 Flash의 ‘사고’ 변형을 도입했습니다. 이 AI 모델은 답변을 제공하기 전에 몇 초 동안 문제를 역으로 해결하여 잠재적으로 신뢰성을 향상시킵니다.

Gemini Nano: 온디바이스 AI 파워

Gemini Nano는 호환 장치에서 직접 작동하도록 설계된 매우 컴팩트한 버전의 Gemini로, 원격 서버로 작업을 보낼 필요가 없습니다. 현재 Nano는 Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 및 Samsung Galaxy S24에서 Recorder의 요약 및 Gboard의 스마트 답장과 같은 여러 기능을 지원합니다.

오디오를 녹음하고 전사할 수 있는 Recorder 앱에는 녹음된 대화, 인터뷰, 프레젠테이션 및 기타 오디오 스니펫에 대한 Gemini 기반 요약 기능이 통합되어 있습니다. 이러한 요약은 네트워크 연결 없이도 생성되며 개인 정보 보호를 위해 프로세스 중에 사용자의 장치에서 데이터가 유출되지 않습니다.

Nano는 또한 Google의 키보드 대체품인 Gboard에서 스마트 답장을 지원합니다. 이 기능은 WhatsApp과 같은 메시징 앱에서 응답을 제안하여 대화를 간소화합니다.

Android의 향후 반복은 Nano를 활용하여 전화 통화 중 잠재적인 사기에 대해 사용자에게 경고할 예정입니다. Pixel 휴대폰의 새로운 날씨 앱은 Gemini Nano를 사용하여 개인화된 날씨 보고서를 생성합니다. 또한 Google의 접근성 서비스인 TalkBack은 Nano를 사용하여 시각 장애가 있는 사용자를 위해 개체에 대한 청각 설명을 만듭니다.

Gemini Ultra: 복귀 대기

Gemini Ultra는 최근 몇 달 동안 비교적 주목을 받지 못했습니다. 이 모델은 현재 Gemini 앱 내에서 사용할 수 없으며 Google의 Gemini API 가격 책정 페이지에도 나열되어 있지 않습니다. 그러나 이것이 Google이 향후 Ultra를 다시 도입할 가능성을 배제하는 것은 아닙니다.

Gemini 모델의 가격 구조

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash 및 2.0 Flash-Lite는 애플리케이션 및 서비스 개발을 위한 Google의 Gemini API를 통해 액세스할 수 있습니다. 종량제 방식으로 운영됩니다. 2025년 2월 22일 현재 추가 기능을 제외한 기본 가격은 다음과 같습니다.

  • Gemini 1.5 Pro: 입력 토큰 100만 개당 1.25달러(최대 128K 토큰 프롬프트) 또는 입력 토큰 100만 개당 2.50달러(128K 토큰보다 긴 프롬프트); 출력 토큰 100만 개당 5달러(최대 128K 토큰 프롬프트) 또는 출력 토큰 100만 개당 10달러(128K 토큰보다 긴 프롬프트)
  • Gemini 1.5 Flash: 입력 토큰 100만 개당 7.5센트(최대 128K 토큰 프롬프트), 입력 토큰 100만 개당 15센트(128K 토큰보다 긴 프롬프트), 출력 토큰 100만 개당 30센트(최대 128K 토큰 프롬프트), 출력 토큰 100만 개당 60센트(128K 토큰보다 긴 프롬프트)
  • Gemini 2.0 Flash: 입력 토큰 100만 개당 10센트, 출력 토큰 100만 개당 40센트. 오디오의 경우 입력 토큰 100만 개당 70센트.
  • Gemini 2.0 Flash-Lite: 입력 토큰 100만 개당 7.5센트, 출력 토큰 100만 개당 30센트.

토큰은 ‘fantastic’이라는 단어의 음절 ‘fan’, ‘tas’, ‘tic’과 같이 원시 데이터의 세분화된 단위를 나타냅니다. 토큰 100만 개는 약 750,000단어에 해당합니다. ‘입력’은 모델에 공급되는 토큰을 나타내고 ‘출력’은 모델에서 생성된 토큰을 나타냅니다.

2.0 Pro의 가격은 아직 발표되지 않았으며 Nano는 아직 초기 액세스 단계입니다.

Gemini의 iPhone 출시 가능성

Gemini가 iPhone과 통합될 가능성은 분명히 있습니다.

Apple은 Apple Intelligence 제품군 내의 다양한 기능에 Gemini 및 기타 타사 모델을 잠재적으로 활용하기 위한 논의에 참여하고 있음을 밝혔습니다. WWDC 2024 기조 연설 후 Apple SVP Craig Federighi는 Gemini를 포함한 모델과 협력할 계획을 확인했지만 자세한 내용은 밝히지 않았습니다.