Gemini Live의 카메라 모드 도입은 인공 지능 발전의 중요한 진전이며, 미래 기술을 직접 우리 손끝으로 가져다줍니다. Pixel 9 및 Samsung Galaxy S25 기기를 사용하는 초기 사용자는 혁신적인 이 기능을 이미 오랫동안 즐겨왔지만, Google이 I/O 컨퍼런스에서 발표한 내용에 따라 Android 및 iOS 사용자 모두를 포함하여 훨씬 더 많은 사용자에게 접근성이 확대되었습니다. 이 개발은 특히 iPhone 소유자에게 흥미로운 소식입니다. 특히 카메라 모드가 지난 4월에 다른 Android 사용자에게 먼저 출시되었다는 점을 고려할 때 현재 사용 가능한 가장 매력적인 AI 기능 중 하나를 경험할 수 있기 때문입니다.
시력의 힘 공개: Gemini 카메라 모드 작동 방식
핵심적으로 Gemini Live의 카메라 모드는 AI에게 “보는” 능력을 부여하여, 카메라 시야 내에 배치된 물체를 인식하고 식별할 수 있도록 합니다. 이는 단순한 피상적인 속임수가 아니라, 사용자가 주변 환경과 보다 직관적이고 정보적인 방식으로 상호 작용할 수 있게 해주는 강력한 도구입니다.
단순한 객체 인식 외에도 Gemini는 식별된 항목에 대한 질문에 답변하고, 필요에 따라 상황과 통찰력을 제공할 수 있습니다. 또한 사용자는 화면을 Gemini와 공유하여 AI가 휴대폰 화면에 표시된 요소를 분석하고 식별할 수 있도록 할 수 있습니다. 카메라 모드로 라이브 세션을 시작하려면, 사용자는 라이브 카메라 보기를 활성화하기만 하면 되며, 카메라가 캡처하는 모든 것에 대해 챗봇과 대화할 수 있습니다.
첫인상: Gemini Live 시운전
Pixel 9 Pro XL에서 Gemini Live를 사용한 초기 테스트 단계에서 저는 그 기능에 깊은 인상을 받았습니다. 특히 기억에 남는 경험 중 하나는 Gemini에게 잃어버린 가위를 찾아달라고 요청했을 때였습니다.
AI는 놀라운 정확도로 응답했습니다. “방금 탁자 위, 피스타치오 녹색 포장 바로 옆에서 가위를 발견했습니다. 보이시나요?”
놀랍게도 Gemini는 정확했습니다. 가위는 제가 15분 라이브 세션 동안 AI 챗봇에게 아파트 투어를 하면서 카메라를 잠시 지나가게 했을 뿐인데도 정확히 AI가 가리킨 곳에 있었습니다.
이러한 초기 성공에 흥미를 느낀 저는 카메라 모드를 더욱 열정적으로 탐색했습니다. 또 다른 더 긴 테스트에서 기능을 활성화하고 아파트를 걸어 다니면서 Gemini에게 보이는 물체를 식별하도록 했습니다. 과일, ChapStick 및 기타 일상적인 물건을 정확하게 인식했습니다. 그러나 가위 재발견은 그 기능의 가장 눈에 띄는 시연으로 남아있었습니다.
Gemini가 사전 프롬프트 없이 가위를 식별했다는 사실이 특히 인상적이었습니다. AI는 세션 중 어느 시점에서 조용히 가위를 인식하고 위치를 놀라운 정밀도로 정확하게 회상했습니다. 이 경험은 진정으로 미래를 엿보는 것 같았고, 잠재력에 대한 추가 조사를 유도했습니다.
영감 얻기: 라이브 비디오 AI에 대한 Google의 비전
Gemini Live의 카메라 기능을 사용한 제 실험은 지난 여름 Google에서 선보였던 데모를 반영했으며, 여기서 이러한 라이브 비디오 AI 기능에 대한 첫 번째 모습을 볼 수 있었습니다. 데모에서는 Gemini가 사용자가 안경을 어디에 두었는지 상기시켜주는, 너무 좋아서 믿기지 않는 듯한 업적을 보여주었습니다. 그러나 제가 발견했듯이 이 수준의 정확도는 실제로 달성 가능했습니다.
Gemini Live는 가정용품보다 훨씬 더 많은 것을 인식할 수 있습니다. Google은 혼잡한 기차역을 탐색하거나 페이스트리의 충전재를 식별하는 데 도움을 줄 수 있다고 주장합니다. 또한 작품의 기원과 한정판인지 여부와 같이 작품에 대한 더 깊은 통찰력을 제공할 수 있습니다.
이 기능은 일반적인 Google Lens의 기능을 뛰어넘습니다. AI와 대화를 나눌 수 있으며, 이는 Google Assistant보다 훨씬 더 대화적입니다.
Google은 또한 이 기능을 보여주는 YouTube 비디오를 공개했으며, 이제 Google 스토어에 자체 페이지가 있습니다.
시작하려면 Gemini를 시작하고 카메라를 켜고 대화를 시작하십시오.
Gemini Live는 작년에 처음 발표된 Google의 Project Astra를 기반으로 하며, 아마도 회사의 가장 큰 “미래에 있다” 기능일 것입니다. ChatGPT, Claude 또는 Gemini와 같은 챗봇에 프롬프트를 입력하거나 말하는 것 이상으로, 생성형 AI 기능에 대한 실험적인 다음 단계입니다.
AI 회사는 비디오 제작에서 기본 처리 능력에 이르기까지 AI 도구의 기능을 지속적으로 개선하고 있습니다. iPhone 제조업체가 작년에 베타로 출시한 Apple의 Visual Intelligence는 Gemini Live와 유사합니다.
Gemini Live는 카메라를 어떤 것의 앞에 대기만 하면 디지털 및 물리적 환경을 병합하여 우리가 환경과 연결하는 방식을 혁신할 잠재력이 있습니다.
Gemini Live 테스트: 실제 시나리오
처음 사용했을 때 Gemini는 카메라 시야에 있는 매우 구체적인 게임 수집품인 봉제 토끼를 정확하게 인식했습니다. 두 번째로 미술관에서 친구에게 보여주었습니다. 즉시 십자가에 달린 거북이를 인식하고(묻지 마세요) 바로 옆에 있는 한자를 식별하고 번역하여 우리 둘 다 오싹함을 느끼게 하고 약간 소름 끼치게 했습니다. 긍정적인 방식으로 믿습니다.
나는 어떻게 기능을 스트레스 테스트할 수 있을지 고민하기 시작했습니다. 작동 중인 장면을 화면 녹화하려고 시도했을 때 지속적으로 실패했습니다. 일반적인 경로에서 벗어나면 어떻게 될까요? 나는 공포 장르(영화, 텔레비전 시리즈 및 비디오 게임)의 열렬한 팬이며, 수많은 수집품, 장신구 및 기타 아이템을 가지고 있습니다. 공포 테마 수집품과 같은 더 모호한 아이템으로는 얼마나 잘 작동할까요?
우선, Gemini는 한 라운드의 질문에서 믿을 수 없을 정도로 놀랍고 믿을 수 없을 정도로 짜증날 수 있다고 말해야 합니다. Gemini에게 식별을 요청하고 싶은 아이템이 약 11개 있었고, 라이브 세션이 길어질수록 상황이 악화되어 세션을 한두 개의 아이템으로 제한해야 했습니다. 제 생각에는 Gemini가 이전에 인식된 아이템의 상황 정보를 사용하여 새로운 아이템을 추측하려고 시도한 것 같으며, 이는 어느 정도 이치에 맞지만 결국 저나 Gemini에게도 도움이 되지 않았습니다.
때로는 Gemini가 매우 정확하여 혼란 없이 쉽게 올바른 답변을 제공했지만, 이는 더 최근 또는 인기 있는 아이템에서 더 자주 발생했습니다. 예를 들어, 테스트 오브젝트 중 하나가 Destiny 2의 것이 뿐만 아니라 작년 시즌 이벤트의 한정판이라는 것을 즉시 추론했을 때 놀랐습니다.
Gemini는 종종 완전히 빗나가서 올바른 답변에 가까워지기 위해 추가 힌트를 제공해야 했습니다. 때로는 Gemini가 이전 라이브 세션의 컨텍스트를 활용하여 응답을 생성하는 것처럼 보였고, 여러 오브젝트를 Silent Hill에서 온 것으로 식별했습니다. 게임 시리즈에 전념하는 전시대가 있으므로 왜 그 영역에 빠르게 뛰어들고 싶어하는지 이해할 수 있습니다.
불완전성 공개: 시스템의 버그 및 이상함
Gemini는 때때로 완전히 버그가 있을 수 있습니다. 때로는 Gemini가 오브젝트 중 하나를 릴리스되지 않은 Silent Hill: f 게임의 가상 캐릭터로 잘못 식별하여 다른 제목의 일부를 결합하여 존재하지 않는 것을 확실히 만들었습니다. Gemini가 잘못된 답변을 제시하고 내가 그것을 수정하고 답변에 대한 더 가까운 힌트를 주거나 단순히 답변을 제시했지만 마치 새로운 추측인 것처럼 잘못된 답변을 반복하게 만드는 것이 내가 겪었던 또 다른 일관된 버그였습니다. 그런 일이 발생하면 세션을 닫고 새 세션을 시작했지만 항상 도움이 되는 것은 아니었습니다.
내가 발견한 한 가지 기술은 일부 토론이 다른 토론보다 더 효과적이라는 것입니다. Gemini 대화 목록을 살펴보고 특정 항목을 올바르게 가져온 이전 채팅을 탭한 다음 해당 채팅에서 다시 라이브로 시청하면 아무런 문제 없이 항목을 식별할 수 있습니다. 이것이 항상 예상되는 것은 아니지만 동일한 언어를 사용할 때도 특정 대화가 다른 대화보다 성능이 우수하다는 점에 주목하는 것이 흥미로웠습니다.
Google은 Gemini Live가 작동하는 방식에 대한 추가 정보에 대한 내 문의에 응답하지 않았습니다.
나는 Gemini가 때로는 매우 구체적인 내 어려운 질문에 성공적으로 답변하기를 원했기 때문에 답변을 돕기 위해 많은 힌트를 제공했습니다. 넛지는 유용했지만 항상 그런 것은 아니었습니다.
변혁적인 기술: Gemini Live의 잠재적 영향
Gemini Live는 카메라 렌즈를 통해 디지털과 물리적 영역을 매끄럽게 통합하여 우리가 주변 환경과 상호 작용하는 방식에 패러다임 변화를 나타냅니다. 이 기술은 아직 초기 단계이지만 잠재적인 응용 분야는 광범위하고 변혁적입니다.
Gemini Live를 사용하여 다음과 같은 것을 상상해보십시오.
- 낯선 환경 탐색: 카메라를 거리 표지판이나 랜드마크에 대기만 하면 Gemini가 실시간 길안내 및 정보를 제공합니다.
- 역사적 유물에 대해 배우기: 박물관을 방문 할 때 Gemini를 사용하여 작품과 역사적 객체를 식별하고 컨텍스트를 제공합니다.
- 복잡한 레시피 요리: Gemini에게 레시피의 각 단계를 안내하고, 재료를 식별하고, 대체 기술을 제안하도록 요청합니다.
- 간단한 가정 문제 진단: 카메라를 오작동하는 가전 제품에 대기만 하면 Gemini가 문제 해결 팁과 잠재적인 해결책을 제공합니다.
이것들은 Gemini Live가 우리의 일상 생활을 향상시킬 수 있는 무수한 방법의 몇 가지 예일 뿐입니다. 기술이 계속 발전하고 개선됨에 따라 우리 주변 세계와 상호 작용하는 방식을 혁신할 잠재력은 진정으로 무한합니다.
Gemini Live가 iOS 장치에 통합됨에 따라 접근성과 도달 범위가 더욱 확대되어 AI 기반 비전의 힘을 더 많은 사용자에게 제공합니다. AI 기술이 기하급수적으로 계속 발전함에 따라 Gemini Live와 같은 기능은 우리의 장치가 통신 및 엔터테인먼트를 위한 도구일 뿐만 아니라 우리가 새롭고 의미 있는 방식으로 주변 세계를 탐색하고 이해하고 상호 작용하는 데 도움이 되는 지능형 동반자인 미래를 엿볼 수 있게 해줍니다.