Gemini 2.5: 모델의 전례 없는 지능 공개

Gemini 2.5 Pro의 뛰어난 성능 공개

2.5 Pro 모델은 최근 개발자들이 더욱 상호작용적이고 기능이 풍부한 웹 애플리케이션을 만들 수 있도록 업데이트되었습니다. 사용자 및 개발자로부터 받은 긍정적인 피드백에 깊이 감사드리며, 사용자 의견을 바탕으로 지속적인 개선 사항을 구현할 것입니다.

학문적 벤치마크에서 뛰어난 성능을 보인 것 외에도 최신 버전의 2.5 Pro는 인기 있는 코딩 리더보드인 WebDev Arena에서 인상적인 ELO 점수 1415점으로 1위를 차지했습니다. 또한 다양한 기준에 따라 인간의 선호도를 평가하는 LMArena의 모든 리더보드에서도 선두를 달리고 있습니다. 게다가 1백만 토큰의 컨텍스트 창이 장착된 2.5 Pro는 장기 컨텍스트 및 비디오 이해 분야에서 최첨단 성능을 제공합니다.

교육 전문가와 협력하여 개발된 모델 제품군인 LearnLM을 통합함으로써 2.5 Pro는 학습을 위한 최고의 모델이 되었습니다. 교육자와 전문가들은 교육학 및 효과를 평가하는 직접적인 비교에서 다양한 시나리오에서 다른 모델보다 Gemini 2.5 Pro를 선호했습니다. 또한 학습 과학의 5가지 원칙 모두에서 상위 모델을 능가했으며, 이는 학습을 위한 AI 시스템을 구축하는 데 사용됩니다. 이는 교육적 맥락에서 효과를 강조하여 맞춤형의 효과적인 교육 전략을 제공합니다.

Deep Think: 추론의 경계를 넓히다

Google은 Gemini의 인지 능력의 한계를 적극적으로 탐구하고 있으며 Deep Think라는 향상된 추론 모드를 실험하기 시작했습니다. 이 혁신적인 모드는 최첨단 연구 기술을 사용하여 응답을 공식화하기 전에 여러 가설을 평가할 수 있습니다. 이 접근 방식은 의사 결정 프로세스를 향상시켜 복잡한 상황에서 더욱 정교하고 미묘한 결과를 얻을 수 있도록 합니다.

Gemini 2.5 Pro Deep Think는 가장 어려운 수학 벤치마크 중 하나로 널리 알려진 2025 USAMO에서 인상적인 점수를 얻었습니다. 또한 경쟁 수준의 코딩을 위한 까다로운 벤치마크인 LiveCodeBench에서도 탁월하며 멀티모달 추론을 평가하는 MMMU에서 84.0%의 점수를 얻습니다. 이러한 결과는 복잡한 작업을 처리하는 Deep Think의 뛰어난 성능을 강조하여 고급 AI 문제 해결의 유망한 미래를 제시합니다.

2.5 Pro Deep Think가 가능한 것의 최전선을 밀고 있다는 점을 감안할 때 Google은 철저한 안전성 평가를 수행하고 안전 전문가로부터 추가 의견을 얻기 위해 추가 시간을 할애하고 있습니다. 또한 회사는 일부 테스터에게 Gemini API에 대한 액세스 권한을 제공하여 널리 사용 가능하게 되기 전에 피드백을 수집합니다. 이 신중하고 신중한 접근 방식은 고급 AI 기술의 책임감 있는 배포를 보장하는 것을 목표로 합니다.

향상된 2.5 Flash 소개

효율성과 비용 효율성으로 알려진 2.5 Flash 모델은 수많은 차원에서 개선되었습니다. 추론, 멀티모달, 코드 처리 및 긴 컨텍스트에 대한 중요한 벤치마크에서 개선점을 보여주면서 동시에 더욱 효율적으로 되어 평가에서 20-30% 더 적은 토큰을 사용합니다. 이는 최적화된 성능 및 리소스 관리를 강조합니다.

새로운 2.5 Flash는 현재 개발자를 위한 Google AI Studio, 엔터프라이즈 애플리케이션을 위한 Vertex AI, 일반 사용자를 위한 Gemini 앱에서 미리 볼 수 있습니다. 6월 초에 일반에 공개될 예정이므로 프로덕션 환경에서 액세스할 수 있습니다.

Gemini 2.5의 새로운 기능

기본 오디오 출력 및 Live API 개선

Live API는 오디오-비주얼 입력 및 기본 오디오 출력 대화의 미리 보기 버전을 도입하여 사용자가 더욱 자연스럽고 표현력이 풍부한 Gemini와 대화형 환경을 만들 수 있도록 합니다. 이 기능을 사용하면 더욱 매력적이고 상호작용적인 애플리케이션을 만들 수 있습니다. AI가 실감나는 오디오 응답을 생성하는 기능은 더욱 직관적인 커뮤니케이션 방식을 제공하여 사용자 상호작용을 크게 향상시킵니다.

Live API를 통해 사용자는 모델의 톤, 악센트 및 말하기 스타일을 조종할 수 있습니다. 예를 들어 이야기를 전달할 때 모델이 극적인 목소리를 내도록 지시할 수 있습니다. 또한 도구 사용을 지원하여 사용자를 대신하여 검색을 수행할 수 있습니다. 음성을 제어하고 외부 도구에 액세스할 수 있는 유연성 덕분에 이 모델은 매우 다재다능하고 다양한 애플리케이션 시나리오에서 가치가 있습니다.

사용자는 다음과 같은 다양한 초기 기능을 시험해 볼 수 있습니다.

  • 정서적 대화: 모델은 사용자의 음성에서 감정을 감지하고 그에 따라 응답합니다. 이 기능은 AI에 정서적 지능 레이어를 추가하여 상호작용을 더욱 개인화합니다.

  • 사전 예방적 오디오: 모델은 배경 대화를 무시하고 응답해야 할 때를 알아 간섭을 최소화하고 명확성을 향상시킵니다. 이 기능은 상호작용의 품질을 향상시켜 더욱 효율적이고 집중적인 커뮤니케이션을 가능하게 합니다.

  • Live API에서 생각하기: 모델은 Gemini의 사고 능력을 활용하여 더욱 복잡한 작업을 지원합니다. 이를 통해 복잡한 작업을 해결할 때 더 깊이 있는 분석과 고려가 가능하며 정확하고 통찰력 있는 솔루션이 필요한 분야에서 매우 귀중합니다.

Google은 또한 2.5 Pro 및 2.5 Flash 모두에서 텍스트-음성 변환 기능에 대한 새로운 미리 보기를 출시하고 있습니다. 이는 기본 오디오 출력을 통해 두 개의 음성으로 텍스트-음성 변환을 지원하는 최초의 제품입니다. 이 기능은 특히 멀티미디어 애플리케이션에서 매력적인 내러티브와 대화를 만드는 데 유용합니다.

기본 오디오 대화와 마찬가지로 텍스트-음성 변환은 표현력이 풍부하며 속삭임과 같은 미묘한 뉘앙스를 포착할 수 있습니다. 24개 이상의 언어를 지원하고 언어 간을 원활하게 전환하므로 글로벌 커뮤니케이션을 위한 다용도 도구입니다. 이러한 언어 사용의 미묘함은 사용자 경험을 풍부하게 하여 더욱 미묘하고 개인화된 커뮤니케이션 프로세스를 촉진합니다.

이 텍스트-음성 변환 기능은 오늘 Gemini API에서 사용할 수 있습니다.

향상된 컴퓨터 인터페이스

Google은 Project Mariner의 컴퓨터 사용 기능을 Gemini API 및 Vertex AI에 도입하고 있습니다. Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company 및 Cartwheel과 같은 미래 지향적인 회사는 그 잠재력을 모색하고 있습니다. Google은 올 여름 개발자가 이 기능을 실험할 수 있도록 더욱 광범위하게 출시되기를 기대하며 혁신적인 프로젝트와 솔루션의 길을 열고 있습니다. AI 모델을 컴퓨터 인터페이스와 직접 통합하는 기능은 다양한 산업 분야에서 더욱 간소화되고 생산적인 워크플로 솔루션으로 이어집니다.

뛰어난 보안 조치

Google은 간접적인 프롬프트 주입과 같은 보안 위협에 대한 보호를 크게 강화했습니다. 여기에는 AI 모델이 검색한 데이터에 악성 명령어를 임베딩하는 것이 포함됩니다. Google의 새로운 보안 접근 방식은 도구 사용 중 간접적인 프롬프트 주입 공격에 대한 Gemini의 보호율을 크게 높여 Gemini 2.5를 현재까지 가장 안전한 모델 제품군으로 만들었습니다. 이러한 강화된 보안은 AI 기반 솔루션을 채택할 때 사용자에게 안전하고 안정적인 경험을 보장합니다.

향상된 개발자 경험

사고 요약

  1. 5 Pro 및 Flash 모두 Gemini API 및 Vertex AI에 사고 요약을 포함합니다. 이러한 요약은 모델의 원시적인 생각을 가져와 머리글, 주요 세부 정보 및 도구를 사용할 때와 같은 모델 작업에 대한 정보를 사용하여 명확한 형식으로 구성합니다. AI의 분석 프로세스에 대한 통찰력을 제공함으로써 사고 요약은 AI 시스템 내에서 문제를 이해하고 디버깅하는 데 도움을 주어 효율성 및 시스템 설계를 개선합니다.

모델의 사고 프로세스에 대한 더욱 구조화되고 간소화된 형식을 통해 개발자와 사용자는 Gemini 모델과의 상호작용을 더욱 쉽게 이해하고 디버깅할 수 있습니다.

사고 예산

Google은 개발자가 지연 시간과 품질의 균형을 맞춰 비용을 더 잘 제어할 수 있도록 사고 예산으로 2.5 Flash를 출시했습니다. 이 기능은 이제 2.5 Pro로 확장되어 더욱 세밀한 조정 옵션을 제공합니다. 사용된 토큰 수를 제어하고 리소스를 최적화함으로써 개발자는 계산 비용과 솔루션 효과 간에 적절한 균형을 달성할 수 있어 AI 구현을 경제적이고 효율적으로 만들 수 있습니다.

이를 통해 모델이 응답하기 전에 생각하는 데 사용하는 토큰 수를 완전히 제어하거나 사고 능력을 끌 수도 있습니다.

예산이 있는 Gemini 2.5 Pro는 일반적으로 사용 가능한 모델과 함께 앞으로 몇 주 안에 안정적인 프로덕션용으로 사용할 수 있습니다.

MCP 도구 지원

Google은 오픈 소스 도구와의 더 쉬운 통합을 위해 Gemini API에서 MCP(모델 컨텍스트 프로토콜) 정의에 대한 기본 SDK 지원을 추가했습니다. MCP 서버 및 호스팅 도구와 같은 다양한 배포 방법이 사용자가 에이전트 애플리케이션을 더 쉽게 구축할 수 있도록 모색됩니다. 이는 프로젝트에 대한 도구 통합 및 협력을 위한 광범위한 옵션을 통해 AI 개발 환경을 개선합니다.

지속적인 혁신은 지속적으로 모델과 개발자 경험을 개선하여 개발자 피드백에 더욱 효율적이고 성능이 좋으며 반응하도록 만드는 데 있어 핵심입니다. Gemini의 기능을 확장하기 위해 기본 연구의 폭과 깊이를 두 배로 늘립니다. 앞으로 더 많은 것이 올 것입니다.