AI: Innowacje Google, xAI i Mistral

Świat Sztucznej Inteligencji (Artificial Intelligence) nieustannie się zmienia, a przełomowe odkrycia i strategiczne posunięcia kształtują przyszłość różnych branż. Przyjrzyjmy się niektórym z najnowszych i najbardziej wpływowych wydarzeń, koncentrując się na postępach Google w dziedzinie AI w opiece zdrowotnej, przejęciu przez xAI startupu zajmującego się generatywnym AI wideo oraz wydaniu przez Mistral AI potężnego, a zarazem kompaktowego modelu AI.

Postępy Google w dziedzinie AI w opiece zdrowotnej

Google niedawno zaprezentowało pakiet aktualizacji Health AI podczas corocznego wydarzenia ‘The Check Up’, demonstrując zaangażowanie firmy w wykorzystanie AI do różnorodnych zastosowań w opiece zdrowotnej. Aktualizacje te obejmują zarówno ulepszanie zapytań związanych ze zdrowiem w wyszukiwarce Google, jak i wprowadzanie nowych ‘otwartych’ modeli AI zaprojektowanych w celu zwiększenia wydajności odkrywania leków opartego na AI.

Ulepszanie dostępu do informacji zdrowotnych za pośrednictwem wyszukiwarki Google

Google wdraża AI oraz zaawansowane systemy jakości i rankingu, aby poszerzyć zakres odpowiedzi w ‘panelach wiedzy’ dla szerokiego zakresu tematów związanych ze zdrowiem. To rozszerzenie obejmuje dodanie obsługi zapytań dotyczących opieki zdrowotnej w wielu językach, takich jak hiszpański, portugalski i japoński, początkowo na platformach mobilnych. Podczas gdy wyszukiwarka już wcześniej dostarczała odpowiedzi w panelach wiedzy na temat powszechnych problemów zdrowotnych, takich jak grypa czy przeziębienie, ta aktualizacja znacznie poszerza zakres tematów, które obejmują te panele.

Ponadto Google wprowadza nową funkcję w wyszukiwarce o nazwie ‘What People Suggest’ (‘Co sugerują inni’). Ta funkcja ma na celu prezentowanie użytkownikom informacji pochodzących od osób, które miały podobne doświadczenia medyczne. Ten dodatek oferuje unikalną ścieżkę dla użytkowników do uzyskania wglądu. Pozwala użytkownikom szybko odkryć autentyczne perspektywy innych osób z tą samą chorobą, wraz z linkami do dalszej eksploracji. ‘What People Suggest’ jest obecnie dostępne na urządzeniach mobilnych w Stanach Zjednoczonych.

Usprawnianie dokumentacji medycznej za pomocą nowych interfejsów API

Google uruchomiło również globalnie nowe interfejsy programowania aplikacji (API) dokumentacji medycznej dla swojej platformy Health Connect, kompatybilne z urządzeniami z systemem Android. Te interfejsy API umożliwiają aplikacjom zarówno odczytywanie, jak i zapisywanie danych z dokumentacji medycznej, w tym alergii, leków, szczepień i wyników laboratoryjnych, a wszystko to w standardowym formacie FHIR. Te ulepszenia zwiększają obsługę Health Connect do ponad 50 typów danych, obejmujących aktywność, sen, odżywianie, parametry życiowe, a teraz także dokumentację medyczną. Ta integracja ułatwia bezproblemowe połączenie między codziennymi danymi zdrowotnymi użytkowników a informacjami od ich dostawców usług medycznych.

AI Co-Scientist: Wirtualny partner badawczy

Przełomową innowacją firmy Google jest ‘AI co-scientist’, nowatorski system oparty na Gemini 2.0. System ten jest pomyślany jako ‘wirtualny współpracownik naukowy’ dla badaczy i naukowców. AI co-scientist ma za zadanie pomagać badaczom w poruszaniu się po obszernej literaturze naukowej, ułatwiając w ten sposób generowanie nowych hipotez. Pomagając w analizie ogromnych zbiorów danych i złożonych prac badawczych, AI co-scientist ma na celu umożliwienie ekspertom odkrywanie nowych pomysłów i przyspieszenie ich badań. Google aktywnie współpracuje z instytucjami takimi jak Imperial College London, Houston Methodist i Stanford University, aby zbadać praktyczne zastosowania tego narzędzia i zamierza uruchomić program zaufanych testerów.

TxGemma: Przyspieszanie odkrywania leków

Google wprowadziło również TxGemma, kompilację otwartych modeli opartych na Gemma, mających na celu zwiększenie wydajności odkrywania leków opartego na AI. TxGemma posiada zdolność rozumienia zarówno standardowego tekstu, jak i struktur różnych jednostek terapeutycznych, w tym małych cząsteczek, chemikaliów i białek. Wydanie TxGemma jest planowane na najbliższą przyszłość.

Narzędzie Capricorn AI: Postępy w onkologii dziecięcej

We współpracy z Princess Maxima Center for Pediatric Oncology w Holandii, Google opracowuje narzędzie AI o nazwie Capricorn. Narzędzie to podkreśla zaangażowanie Google w stosowanie AI w wyspecjalizowanych dziedzinach medycyny, szczególnie w onkologii dziecięcej.

Szerszy wpływ AI na opiekę zdrowotną

Google wcześniej podkreślało pozytywny wpływ AI na globalne wyniki zdrowotne. Firma opracowała modele AI, aby pomóc w wykrywaniu chorób, takich jak rak piersi, rak płuc i retinopatia cukrzycowa. W maju 2024 r. Google ogłosiło Med-Gemini, rodzinę modeli Gemini dostrojonych do multimodalnych zastosowań medycznych. Ponadto w czerwcu 2024 r. Google wprowadziło Personal Health Large Language Model dla urządzeń mobilnych i urządzeń do noszenia. Ta dostrojona wersja Gemini jest przeznaczona do interpretowania danych z czujników i dostarczania spersonalizowanych spostrzeżeń i zaleceń dotyczących snu i wzorców sprawności fizycznej danej osoby.

Przejęcie Hotshot przez xAI: Wejście w generatywne AI wideo

Przedsięwzięcie AI Elona Muska, xAI, przejęło Hotshot, startup specjalizujący się w narzędziach do generowania wideo opartych na AI. To przejęcie pozycjonuje xAI do konkurowania z Sora firmy OpenAI, wiodącą platformą w przestrzeni generatywnego AI wideo. Hotshot ogłosił na swojej stronie internetowej, że rozpoczął wycofywanie tworzenia nowych filmów 14 marca, a obecni klienci mieli czas do 30 marca na pobranie utworzonych filmów.

Grok 3: Ambitny chatbot AI firmy xAI

19 lutego xAI zaprezentowało Grok 3, najnowszą wersję swojego chatbota, którą Elon Musk ogłosił ‘najmądrzejszym AI na Ziemi’. Następnie firma ogłosiła wydanie beta dwóch modeli rozumowania, Grok 3 (Think) i Grok 3 Mini (Think). xAI stwierdziło, że Grok 3, wytrenowany na ich superklastrze Colossus z dziesięciokrotnie większą mocą obliczeniową niż poprzednie najnowocześniejsze modele, wykazuje znaczne ulepszenia w zakresie rozumowania, matematyki, kodowania, wiedzy o świecie i wykonywania instrukcji.

Mistral AI’s Mistral Small 3.1: Kompaktowy i potężny

Francuski startup AI, Mistral AI, wprowadził 17 marca nowy model open-source o nazwie Mistral Small 3.1. Firma twierdzi, że model ten przewyższa porównywalne modele, takie jak Gemma 3 firmy Google i GPT-4o Mini firmy OpenAI, intensyfikując w ten sposób konkurencję na rynku w dużej mierze zdominowanym przez amerykańskich gigantów technologicznych.

Mistral Small 3.1 przetwarza zarówno tekst, jak i obrazy z 24 miliardami parametrów – znacznie mniejszym rozmiarem w porównaniu z wiodącymi modelami zastrzeżonymi – jednocześnie dorównując lub przewyższając ich wydajność. Mistral AI podkreśliło, że Mistral Small 3.1 jest pierwszym modelem open-source, który nie tylko dorównuje, ale przewyższa wydajność wiodących małych modeli zastrzeżonych w różnych wymiarach.

Opierając się na Mistral Small 3, ten nowy model oferuje ulepszoną wydajność tekstu, multimodalne rozumienie i rozszerzone okno kontekstowe do 128 000 tokenów. Mistral AI twierdzi, że model przetwarza informacje z prędkością 150 tokenów na sekundę, dzięki czemu nadaje się do zastosowań wymagających szybkiego czasu reakcji.

Wszechstronność i dostępność Mistral Small 3.1

Mistral Small 3.1 jest przeznaczony do uruchamiania na sprzęcie tak dostępnym, jak pojedynczy RTX 4090 lub Mac z 32 GB pamięci RAM, co czyni go wysoce odpowiednim do zastosowań na urządzeniach. Model można dostroić do wyspecjalizowanych dziedzin, umożliwiając tworzenie wysoce dokładnych ekspertów w danej dziedzinie, szczególnie przydatnych w dziedzinach takich jak doradztwo prawne, diagnostyka medyczna i wsparcie techniczne.

Nowy model jest dostosowany do szerokiego spektrum zastosowań korporacyjnych i konsumenckich wymagających multimodalnego rozumienia. Potencjalne przypadki użycia obejmują weryfikację dokumentów, diagnostykę, przetwarzanie obrazów na urządzeniu, kontrole wizualne w celu kontroli jakości, wykrywanie obiektów w systemach bezpieczeństwa, obsługę klienta opartą na obrazach i pomoc ogólnego przeznaczenia.

Mistral OCR: Zaawansowane rozumienie dokumentów

Wcześniej w marcu Mistral AI ogłosiło Mistral OCR, który firma reklamuje jako ‘Najlepszy na świecie interfejs API do rozumienia dokumentów’. Mistral OCR to interfejs API Optical Character Recognition (OCR) zdolny do wyodrębniania tekstu, tabel, równań i obrazów ze złożonych dokumentów. Mistral AI uważa, że ta technologia zrewolucjonizuje sposób, w jaki organizacje przetwarzają i wykorzystują ogromne repozytoria informacji.

Według firmy, Mistral OCR przetwarza do 2000 stron na minutę, obsługuje wielojęzyczne i multimodalne możliwości oraz dostarcza ustrukturyzowane dane wyjściowe, takie jak JSON, w celu bezproblemowej integracji z przepływami pracy AI. Wewnętrzne testy wskazują, że Mistral OCR jest liderem na rynku pod względem dokładności ekstrakcji tekstu, szczególnie w przypadku zeskanowanych dokumentów, treści matematycznych i tekstu wielojęzycznego. W przeciwieństwie do tradycyjnych rozwiązań OCR, wyodrębnia również osadzone obrazy, co czyni go idealnym do badań naukowych, zgłoszeń regulacyjnych i digitalizacji dokumentów historycznych.

Mistral AI informuje, że OCR już pomaga przedsiębiorstwom i instytucjom badawczym w digitalizacji literatury, usprawnianiu obsługi klienta i archiwizacji historycznych. Dodatkowo OCR pomaga firmom konwertować literaturę techniczną, rysunki inżynierskie, notatki z wykładów, prezentacje, zgłoszenia regulacyjne i inne na indeksowane, gotowe do odpowiedzi formaty. Możliwości Mistral OCR są dostępne do bezpłatnego wypróbowania na le Chat, a firma przewiduje dalsze ulepszenia modelu w nadchodzących tygodniach. Te ciągłe zmiany odzwierciedlają dynamiczny charakter AI i jej potencjał do przekształcania różnych branż.