GPT-4.5: 혁명이 아닌 개선
OpenAI는 최근 GPT-4.5를 ChatGPT Pro 사용자에게 제공하기 시작했으며, Plus, Team, Enterprise 및 Education 계정에도 곧 제공될 예정입니다. 내부적으로 ‘Orion’이라고 불리는 이 모델은 OpenAI에 따르면 “인간의 의도를 더 잘 파악하고 미묘한 단서와 암묵적인 기대를 더 큰 뉘앙스와 감성 지능으로 해석”합니다. GPT-4o의 개발 과정과 유사하게, 새로운 감독 기술과 함께 전통적인 미세 조정 및 인간 피드백을 통한 강화 학습을 활용합니다. GPT-4.5는 실시간 검색 기능을 제공하고, 파일 및 이미지 업로드를 지원하며, 글쓰기 및 코딩을 위한 캔버스와 통합됩니다. 그러나 현재 ChatGPT에서 볼 수 있는 음성 모드, 비디오 또는 화면 공유와 같은 멀티모달 기능은 없습니다.
OpenAI는 비지도 학습이 모델의 정확성과 직관력을 향상시킨다고 강조합니다. 이 접근 방식은 GPT-3.5, GPT-4, 그리고 현재 GPT-4.5와 같은 모델의 발전을 이끄는 원동력이었습니다. 별도로, 추론 확장은 모델이 정보를 체계적으로 처리하도록 훈련시켜 응답하기 전에 일련의 사고 과정을 생성합니다. 이 체계적인 접근 방식은 OpenAI o1 및 OpenAI o3-mini와 같은 모델에서 입증된 것처럼 복잡한 STEM 및 논리 문제를 해결하는 능력을 향상시킵니다. GPT-4.5는 향상된 컴퓨팅 성능, 더 큰 데이터 세트 및 아키텍처 혁신을 활용하는 비지도 학습 확장의 대표적인 예로 제시됩니다. Microsoft Azure AI 슈퍼컴퓨터에서 훈련된 이 모델은 더 넓은 지식과 세계에 대한 더 깊은 이해를 가지고 있어 환각을 줄이고 신뢰성을 높인다고 합니다.
이러한 발전에도 불구하고 GPT-4.5는 큰 열광을 불러일으키지 못했습니다. 획기적인 도약보다는 점진적인 개선으로 인식되고 있습니다. OpenAI는 향상된 감성 지능, 뉘앙스 및 창의성을 자랑하지만 많은 사용자는 GPT-4o와 비교하여 큰 차이를 느끼지 못했습니다. GPT-4o의 핵심 기능인 멀티모달 발전의 부재는 이러한 인식에 더욱 기여합니다.
더욱이 GPT-4.5는 터무니없는 출력을 생성하는 경향을 보였습니다. OpenAI의 내부 사실성 벤치마킹 도구인 SimpleQA에 따르면 GPT-4.5는 37.1%의 경우 환각(조작된 내용을 사실인 것처럼 확신을 가지고 제시)을 일으킵니다. 이는 동일한 벤치마크에서 61.8%의 환각률을 보이는 또 다른 고급 “추론” 모델인 GPT-4o와 비교해도 심각한 문제입니다. 더 작고 저렴한 o3-mini 모델은 80.3%의 더 높은 환각률을 보입니다.
Claude 3.7을 갖춘 Anthropic과 Gemini를 통한 Google의 발전과 같은 경쟁자들이 있는 현재 AI 환경은 상당한 업그레이드에 대한 기대를 높였습니다. 사용자들은 단순한 개선이 아닌 획기적인 발전을 찾고 있으며, GPT-4.5는 현재 형태로서는 이러한 기대에 미치지 못하는 것으로 보입니다.
추론 모델의 부상과 투자자 신뢰
Elon Musk는 최근 X에서 AGI(Artificial General Intelligence)가 임박했다고 제안했습니다. 이 발언은 OpenAI, Google, Meta, Microsoft, DeepSeek, Anthropic, 그리고 Musk 자신의 xAI와 같은 기술 대기업들이 인간과 같은 사고를 모방하도록 설계된 AI 시스템인 추론 모델을 개발하기 위한 열띤 경쟁 속에서 나왔습니다.
투자자들은 분명히 이 추구에 대한 열정을 보여주고 있습니다. 하이브리드 추론 기능을 갖춘 Claude 3.7 Sonnet을 출시한 직후, Anthropic은 35억 달러 규모의 Series E 펀딩 라운드를 확보했습니다. 이는 기업 가치를 615억 달러로 3배 증가시켜 OpenAI의 주요 경쟁자로서의 입지를 확고히 했습니다. Lightspeed Venture Partners가 주도하고 Salesforce Ventures, Cisco, Fidelity, Jane Street 등이 참여한 이번 투자는 AI 개발을 위한 컴퓨팅 성능 확장, 안전 연구 강화, 글로벌 성장 가속화에 사용될 것입니다.
추론의 한계 확장: BBEH 벤치마크
LLM(Large Language Models)은 점점 더 다양한 영역에서 강력한 추론 기능을 요구하는 일상적인 애플리케이션에 통합되고 있습니다. 그러나 기존 벤치마크는 종종 수학과 코딩을 우선시하여 다른 중요한 추론 유형을 간과합니다. BIG-Bench 데이터 세트는 복잡한 추론 작업에서 LLM을 평가하는 데 널리 사용되었지만, 모델이 BIG-Bench와 더 어려운 변형인 BIG-Bench Hard(BBH) 모두에서 거의 완벽한 점수를 달성할 정도로 상당한 진전을 이루었습니다. 이러한 포화 상태는 이러한 벤치마크가 추가적인 발전을 측정하는 데 덜 효과적이게 만듭니다.
이러한 한계를 해결하기 위해 연구자들은 BIG-Bench Extra Hard(BBEH)를 도입했습니다. 이 새로운 벤치마크는 BBH의 각 작업을 훨씬 더 어려운 버전으로 대체하면서도 유사한 추론 기술을 평가합니다. BBEH에 대한 테스트 결과, 최고의 범용 모델조차도 9.8%의 점수만 달성하는 반면, 추론을 위해 특별히 설계된 최고 모델은 44.8%를 달성했습니다. 이러한 결과는 LLM이 복잡한 추론에서 직면하는 지속적인 문제를 강조하며, 개선의 여지가 많음을 나타냅니다. 전체 연구 논문은 이 새로운 벤치마크에 대한 자세한 내용을 제공합니다.
AI 기반 위성: 우주 탐사 및 운영의 새로운 시대
하이데라바드에 기반을 둔 우주 기술 스타트업인 TakeMe2Space는 최근 Seafund가 주도하고 Blume Ventures, Artha Venture Fund, AC Ventures 및 기타 엔젤 투자자들이 참여한 프리 시드 펀딩 라운드에서 550만 루피를 확보했습니다. 이 자금은 규모는 작지만 인도 최초의 우주 AI 연구소를 설립하는 데 중요한 발걸음을 내딛는 것을 의미합니다. TakeMe2Space는 이 자금을 사용하여 MOI-1(My Orbital Infrastructure–Technology Demonstrator) 플랫폼을 개발할 계획입니다. 이 플랫폼은 사용자가 Orbitlab이라는 웹 콘솔을 통해 지구 관측 AI 모델 또는 기타 우주 실험을 궤도 위성에 직접 업로드할 수 있도록 합니다. 사용자는 분당 2달러의 요금으로 위성 사용 시간에 대해서만 비용을 지불합니다.
이 회사의 MOI-TD 플랫폼은 지상국에서 대규모 AI 모델을 업링크하고, 위성에서 외부 코드를 실행하고, 암호화된 결과를 안전하게 다운링크하는 기능을 입증했다고 보고되었습니다. 이는 보다 자율적이고 효율적인 위성 운영으로의 전환을 의미합니다.
TakeMe2Space는 이 노력에 혼자가 아닙니다. ESA(OPS-SAT 포함) 및 Globalstar와 같은 조직도 안전한 IoT 통신에서 궤도 내 AI 모델 실행에 이르기까지 AI 기반 위성 기술의 실제 응용 분야를 개척하고 있습니다. 기술이 계속 발전함에 따라 AI 기반 위성은 점점 더 자율화되어 보다 효율적인 우주 운영을 가능하게 하고 연구, 보안 및 글로벌 연결을 위한 새로운 가능성을 열어줄 것입니다.
전통적으로 위성은 데이터 처리, 의사 결정 및 명령 실행을 위해 지상국에 크게 의존했습니다. 데이터를 다운링크하고 지구에서 분석한 다음 처리된 통찰력을 위성으로 다시 업링크해야 했습니다. 이는 시간이 많이 걸리고 대역폭을 많이 사용하는 프로세스였습니다. 그러나 AI 및 엣지 컴퓨팅(클라우드가 아닌 장치 자체에서 데이터를 처리)의 발전으로 인해 위성은 온보드에서 데이터를 처리하고, 자율적인 결정을 내리고, 가장 중요한 통찰력만 안전하게 전송할 수 있게 되었습니다. 그 결과 더 빠르고, 더 스마트하고, 더 효율적인 운영이 가능해졌습니다.
최신 AI 기반 위성의 작동은 일반적으로 세 가지 주요 단계로 이루어집니다.
- AI 알고리즘 업링크: AI 알고리즘은 지상국에서 위성으로 전송되어 고급 데이터 처리 기능을 제공합니다.
- 온보드 데이터 분석: AI 모델은 이미지, 센서 데이터 및 기타 입력을 궤도에서 직접 분석하여 지속적인 지상 개입의 필요성을 최소화합니다.
- 통찰력의 안전한 다운링크: 위성은 원시 데이터를 전송하는 대신 암호화된 통찰력을 전송하여 대역폭을 절약하고 보안을 강화합니다.
이 AI 기반 접근 방식은 몇 가지 이점을 제공합니다. 위성이 우주에서 데이터를 처리할 수 있도록 하여 지연 시간을 크게 줄여 지상국의 지시를 기다리지 않고 실시간 상황에 더 빠르게 대응할 수 있습니다. 대량의 원시 데이터 대신 가장 관련성이 높은 통찰력만 전송되므로 대역폭 사용이 최적화됩니다. 암호화된 통신을 통해 보안도 향상되어 사이버 위협 및 데이터 유출의 위험이 완화됩니다. 이러한 이점은 재난 대응, 군사 작전 및 우주 탐사와 같은 응용 분야에서 특히 유용합니다.
AI 기반 위성의 실제 응용 분야는 다양하고 영향력이 큽니다.
- 재난 관리: AI가 장착된 위성은 산불, 홍수 및 허리케인을 실시간으로 감지하여 긴급 대응 팀이 신속하게 조치를 취할 수 있도록 합니다.
- 정밀 농업: AI 모델은 작물 건강 및 토양 상태를 분석하여 정밀 농업 관행을 개선합니다.
- 환경 모니터링: 환경 기관은 위성 데이터를 활용하여 대기 및 수질 오염 수준을 추적합니다.
- 자율 항법 및 우주 운영: AI는 잠재적인 위협을 예측하고 대응하여 충돌 방지를 개선하여 위성의 안전을 보장합니다. 또한 위성 별자리의 조정을 용이하게 하여 적용 범위와 효율성을 향상시킵니다. 또한 AI는 궤도 파편 이동을 추적하고 예측하는 데 중요한 역할을 하여 우주 인프라 손상 위험을 줄입니다.
- 국방 및 보안: AI 기반 감시 시스템은 무단 활동 및 군사 이동을 더 정확하게 감지합니다.
- 통신 및 IoT: AI 기반 위성은 더 스마트한 트래픽 라우팅에 기여하여 위성 인터넷 연결을 개선하고 원활한 글로벌 통신을 보장합니다.
- 우주 탐사: AI는 우주 망원경이 소행성과 외계 행성을 탐지하는 효율성을 향상시켜 우주 발견 노력을 크게 발전시킵니다.
수많은 장점에도 불구하고 AI 기반 위성의 개발 및 배포에는 다음과 같은 과제가 남아 있습니다.
- 제한된 컴퓨팅 성능: 위성은 저전력, 방사선 강화 칩에서 작동해야 하므로 AI 기능이 제한됩니다.
- 혹독한 우주 환경: 방사선 노출은 하드웨어 오작동의 위험을 초래합니다.
- 보안 위협: 우주에서 외부 코드를 업링크하고 실행하려면 사이버 공격을 방지하기 위한 신중한 관리가 필요합니다.
- 비용 및 개발 시간: AI 호환 위성 하드웨어를 구축, 테스트 및 검증하는 것은 비용이 많이 들고 시간이 많이 걸리는 프로세스입니다.
- 적응성 요구 사항: 궤도에 배치된 AI 모델은 적응성이 뛰어나 최소한의 업데이트로 작동하고 새로운 시나리오에 자율적으로 적응해야 합니다.
AI 잠금 해제: ChatGPT에서 반복적인 문구 제거
AI는 글쓰기, 브레인스토밍, 명확성 개선, 구조 개선, 전반적인 가독성 향상을 지원하는 콘텐츠 제작에 유용한 도구가 될 수 있습니다. 그러나 AI 생성 텍스트의 일반적인 문제는 반복적인 단어 선택으로 인해 정형화된 언어를 사용하는 경향이 있다는 것입니다. AI는 신선하고 영향력 있는 메시지를 전달하는 대신 친숙한 패턴에 의존하여 효과와 독창성을 떨어뜨립니다.
“delve,” “tapestry,” “vibrant,” “landscape,” “realm,” “embark,” “excels,” “It’s important to note…,” 및 “A testament to…”와 같이 과도하게 사용되는 단어와 문구는 AI 생성 콘텐츠의 품질을 크게 저하시킬 수 있습니다. 제품 마케터의 경우 이러한 반복은 메시지를 덜 매력적으로 만들고, 청중 참여를 줄이고, 브랜드 차별화를 약화시키고, 통찰력과 전략적 메시지가 혼잡한 시장에서 눈에 띄지 않게 할 수 있습니다.
ChatGPT의 메모리 기능을 활용하면 이 문제를 완화하고 과도하게 사용되는 단어와 문구를 제거할 수 있습니다. 이 기능을 효과적으로 활용하는 방법은 다음과 같습니다.
액세스: ChatGPT는 웹사이트 또는 모바일 앱을 통해 액세스할 수 있습니다.
이점:
- 향상된 독창성: AI 생성 콘텐츠가 덜 로봇적이고 더 인간적으로 느껴지도록 합니다.
- 향상된 브랜드 메시징: 브랜드 차별화를 약화시키는 일반적인 문구를 피합니다.
- 참여도 향상: 중복을 줄여 보다 효과적인 커뮤니케이션을 장려합니다.
예: 제품 마케팅 콘텐츠 생성
신제품 출시를 위한 콘텐츠 초안을 작성해야 하는 제품 마케터를 생각해 보십시오. ChatGPT에 대한 초기 요청은 “delving into an intricate landscape of innovation…”과 같이 반복적이고 일반적인 문구로 가득 찬 응답을 초래하여 메시지가 영감을 받지 못한 것처럼 느껴질 수 있습니다.
더 매력적이고 독창적인 콘텐츠를 만들기 위해 마케터는 다음 단계를 따를 수 있습니다.
- 프롬프트 설정: 마케터는 ChatGPT에 명시적으로 지시합니다. “Please avoid the following words: delve, tapestry, vibrant, landscape, realm, embark, excels. Commit this to memory.” 이는 ChatGPT에 응답에서 이러한 용어를 적극적으로 필터링하도록 지시합니다.
- 영구 메모리 사용: “Commit this to memory”라는 문구는 ChatGPT가 여러 상호 작용에서 이러한 특정 지침을 유지하도록 합니다. 이를 통해 지정된 단어와 문구를 지속적으로 피할 수 있습니다. ChatGPT는 텍스트를 생성하기 전에 메모리를 확인하고 지정된 용어를 피하기 위한 지침을 따릅니다.
- 수동 검토: 응답을 생성한 후 마케터는 콘텐츠에 남아 있는 중복성을 검토하고 명확성과 영향력을 위해 언어를 미세 조정합니다.
효과:
- 프롬프트 사용자 정의: 특정 지침은 AI의 출력을 형성하는 데 도움이 됩니다.
- 메모리 보존: ChatGPT는 대화에서 단어 회피 규칙을 저장하고 따를 수 있습니다.
- 수동 개선: 최종적인 인간 편집은 명확성과 진정성을 보장합니다.
참고: 이 섹션에 제시된 도구 및 분석은 내부 테스트를 기반으로 하며 명확한 가치를 보여줍니다. 권장 사항은 독립적이며 도구 제작자의 영향을 받지 않습니다.
추가 AI 뉴스 및 개발
AI 기반 스마트폰 증가: Deutsche Telekom은 바르셀로나에서 열린 Mobile World Congress 2025에서 Perplexity 어시스턴트를 탑재한 AI 기반 스마트폰을 출시할 계획이라고 발표했습니다. 이 어시스턴트는 택시 주문, 테이블 예약, 실시간 언어 번역, 사용자 쿼리 응답과 같은 일상적인 작업을 단순화하도록 설계되었습니다. 이 회사는 이 어시스턴트가 이메일 작성, 전화 걸기, 텍스트 요약, 캘린더 관리를 통해 수백만 명의 고객을 지원하는 가상 비서가 될 것으로 예상합니다. AI Phone은 기능을 향상시키기 위해 Google Cloud AI, ElevenLabs 및 Picsart를 통합할 예정이며 올해 말에 출시될 예정입니다. InMobi 계열사인 Glance와 Google Cloud는 또한 Google의 AI 모델을 활용하여 스마트폰 잠금 화면과 주변 TV 화면에서 사용자 경험을 향상시키는 소비자 대면 AI 애플리케이션을 개발하기 위한 협력을 발표했습니다. Glance는 현재 전 세계적으로 4억 5천만 대 이상의 Android 기반 스마트폰을 지원합니다.
정부 부문에서 심각한 사이버 사고 감소: Kaspersky Managed Detection and Response(MDR) 분석가 보고서에 따르면 정부 및 개발 산업은 2024년에 직접적인 인간 개입과 관련된 심각도가 높은 사고가 크게 감소했습니다. 그러나 식품, IT, 통신 및 산업 부문에서는 이러한 사고가 증가했습니다.
OpenAI, Sora를 ChatGPT에 통합할 계획: OpenAI는 AI 비디오 생성 도구인 Sora를 ChatGPT에 직접 통합하기 위해 노력하고 있습니다. 현재 Sora는 전용 웹 앱을 통해서만 사용할 수 있으며 사용자는 최대 20초 길이의 시네마틱 클립을 생성할 수 있습니다. OpenAI는 또한 Sora로 구동되는 AI 이미지 생성기를 개발하고 있습니다.