Google zaprezentował Gemma 3n, przełomowy multimodalny mały model językowy, który jest teraz dostępny w wersji zapoznawczej w innowacyjnej społeczności LiteRT Hugging Face, obok szeregu wcześniej uruchomionych modeli. Gemma 3n została zaprojektowana do przetwarzania różnorodnych danych wejściowych, w tym tekstu, obrazów, wideo i audio. Ponadto ułatwia dostrajanie, dostosowywanie za pomocą generowania rozszerzonego o pobieranie (RAG) i wywoływanie funkcji, a wszystko to oparte jest na nowych pakietach AI Edge SDK.
Gemma 3n: Ujawnienie mocy wewnątrz
Gemma 3n jest oferowana w dwóch różnych wariantach parametrów: Gemma 3n 2B i Gemma 3n 4B. Obie iteracje są wyposażone w możliwość obsługi wejść tekstowych i obrazowych, a wsparcie audio ma zostać zintegrowane w niedalekiej przyszłości, zgodnie z projekcjami Google. Oznacza to znaczny skok w skali w porównaniu z jego poprzednikiem, niemultimodalnym Gemma 3 1B, który zadebiutował wcześniej w tym roku i wymagał zaledwie 529 MB do zarządzania imponującymi 2585 tokenami na sekundę na mobilnym GPU.
Zgodnie ze specyfikacjami technicznymi Google, Gemma 3n wykorzystuje selektywną aktywację parametrów, innowacyjną technikę zaprojektowaną do efektywnego zarządzania parametrami. Oznacza to, że dwa modele obejmują większą liczbę parametrów niż 2B lub 4B, które są aktywnie zaangażowane podczas wnioskowania. To strategiczne podejście optymalizuje wykorzystanie zasobów i poprawia wydajność.
Dostrajanie i kwantyzacja: Uwolnienie możliwości dostosowywania
Google podkreśla możliwość dostrojenia przez deweloperów modelu bazowego, a następnie konwersji i kwantyzacji go przy użyciu najnowocześniejszych narzędzi kwantyzacji dostępnych za pośrednictwem Google AI Edge. Umożliwia to deweloperom dostosowanie modelu do konkretnych aplikacji i optymalizację jego charakterystyki wydajności.
Integracja RAG: Wzbogacanie modeli językowych danymi kontekstowymi
Alternatywnie do dostrajania, modele Gemma 3n można wdrożyć do generowania rozszerzonego o pobieranie (RAG) na urządzeniu, metodologii wzbogacającej model językowy danymi specyficznymi dla aplikacji. To rozszerzenie jest ułatwione przez bibliotekę AI Edge RAG, obecnie dostępną wyłącznie dla systemu Android, ale z planami rozszerzenia na inne platformy.
Biblioteka RAG działa za pośrednictwem usprawnionego potoku składającego się z kilku kluczowych etapów:
- Import danych: Wprowadzanie odpowiednich danych do systemu.
- Chunking i indeksowanie: Segmentowanie i porządkowanie danych w celu efektywnego wyszukiwania.
- Generowanie osadzeń: Tworzenie reprezentacji wektorowych danych w celu semantycznego zrozumienia.
- Wyszukiwanie informacji: Identyfikacja i wydobywanie istotnych informacji na podstawie zapytań użytkowników.
- Generowanie odpowiedzi: Tworzenie spójnych i kontekstowo trafnych odpowiedzi przy użyciu LLM.
Ta solidna struktura umożliwia kompleksowe dostosowanie potoku RAG, obejmujące obsługę niestandardowych baz danych, strategii chunkingu i funkcji pobierania.
AI Edge On-device Function Calling SDK: Wypełnianie luki między modelami a działaniami w świecie rzeczywistym
Równocześnie z prezentacją Gemma 3n, Google wprowadził AI Edge On-device Function Calling SDK, początkowo dostępny wyłącznie na platformie Android. Ten zestaw SDK umożliwia modelom wywoływanie określonych funkcji, a tym samym wykonywanie działań w świecie rzeczywistym.
Aby bezproblemowo zintegrować LLM z funkcją zewnętrzną, funkcja musi być starannie opisana poprzez określenie jej nazwy, opisowej narracji wyjaśniającej, kiedy LLM powinna jej użyć, oraz wymaganych parametrów. Te metadane są hermetyzowane w obiekcie Tool
, który jest następnie przekazywany do dużego modelu językowego za pośrednictwem konstruktora GenerativeModel
. Zestaw SDK wywoływania funkcji obejmuje obsługę odbierania wywołań funkcji z LLM na podstawie dostarczonego opisu i przesyłania wyników wykonania z powrotem do LLM.
Odkrywanie potencjału: Galeria Google AI Edge
Dla tych, którzy chcą zagłębić się w te przełomowe narzędzia, Galeria Google AI Edge jest nieocenionym zasobem. Ta eksperymentalna aplikacja prezentuje różnorodną gamę modeli i ułatwia przetwarzanie tekstu, obrazów i audio.
Zagłębianie się: Nuance Gemma 3n i jego ekosystemu
Pojawienie się Gemma 3n stanowi znaczący krok w ewolucji uczenia maszynowego na urządzeniu, oferując potężne połączenie wydajności, adaptacyjności i funkcjonalności. Jego multimodalne możliwości, w połączeniu z obsługą RAG i wywoływania funkcji, odblokowują niezliczone możliwości dla programistów chcących tworzyć inteligentne i świadome kontekstu aplikacje.
Selektywna aktywacja parametrów: Dogłębna analiza
Technika selektywnej aktywacji parametrów zastosowana przez Gemma 3n zasługuje na bliższą analizę. To innowacyjne podejście pozwala modelowi dynamicznie aktywować tylko te parametry, które są niezbędne do danego zadania, minimalizując w ten sposób narzut obliczeniowy i maksymalizując wydajność. Jest to szczególnie ważne w przypadku wdrożenia na urządzeniu, gdzie zasoby są często ograniczone.
Podstawowa zasada selektywnej aktywacji parametrów opiera się na obserwacji, że nie wszystkie parametry w sieci neuronowej są jednakowo ważne dla wszystkich zadań. Poprzez selektywne aktywowanie tylko najbardziej odpowiednich parametrów, model może osiągnąć porównywalną wydajność przy znacznie zmniejszonym koszcie obliczeniowym.
Implementacja selektywnej aktywacji parametrów zazwyczaj obejmuje mechanizm określania, które parametry aktywować dla danego wejścia. Można to osiągnąć za pomocą różnych technik, takich jak:
- Mechanizmy uwagi: Zwracanie uwagi na najbardziej odpowiednie części wejścia i aktywowanie odpowiednich parametrów.
- Mechanizmy bramkowania: Używanie funkcji bramkowania do kontrolowania przepływu informacji przez różne części sieci.
- Rzadkie trenowanie: Trenowanie sieci w celu uczenia się rzadkich połączeń, tak aby tylko podzbiór parametrów był aktywny podczas wnioskowania.
Wybór techniki zależy od konkretnej architektury modelu i charakterystyki zadania. Jednak nadrzędnym celem jest identyfikacja i aktywacja tylko tych parametrów, które są najbardziej odpowiednie dla danego wejścia, zmniejszając w ten sposób koszt obliczeniowy i poprawiając wydajność.
RAG: Wzbogacanie wiedzy i kontekstu
Generowanie rozszerzone o pobieranie (RAG) stanowi zmianę paradygmatu w sposobie wykorzystywania modeli językowych. Integrując zewnętrzne źródła wiedzy, RAG umożliwia modelom językowym generowanie bardziej świadomych, dokładnych i kontekstowo trafnych odpowiedzi.
Potok RAG składa się z kilku kluczowych etapów:
- Indeksowanie danych: Na tym etapie zewnętrzne źródło wiedzy jest indeksowane, aby umożliwić efektywne wyszukiwanie odpowiednich informacji. Zazwyczaj obejmuje to tworzenie reprezentacji wektorowej każdego dokumentu w źródle wiedzy, która może być następnie użyta do szybkiego identyfikowania dokumentów podobnych do danego zapytania.
- Wyszukiwanie informacji: Po otrzymaniu zapytania system RAG pobiera najbardziej odpowiednie dokumenty z zaindeksowanego źródła wiedzy. Zazwyczaj odbywa się to za pomocą algorytmu wyszukiwania podobieństw, który porównuje reprezentację wektorową zapytania z reprezentacjami wektorowymi dokumentów w źródle wiedzy.
- Kontekstualizacja: Pobrane dokumenty są następnie wykorzystywane do wzbogacenia kontekstu zapytania. Można to zrobić, po prostu dodając pobrane dokumenty do zapytania lub używając bardziej wyrafinowanej techniki do zintegrowania informacji z pobranych dokumentów z reprezentacją zapytania.
- Generowanie odpowiedzi: Na koniec rozszerzone zapytanie jest wprowadzane do modelu językowego, który generuje odpowiedź na podstawie połączonych informacji z zapytania i pobranych dokumentów.
RAG oferuje kilka zalet w porównaniu z tradycyjnymi modelami językowymi:
- Zwiększona dokładność: Dzięki włączeniu wiedzy zewnętrznej, modele RAG mogą generować dokładniejsze i oparte na faktach odpowiedzi.
- Lepsze zrozumienie kontekstu: Modele RAG mogą lepiej rozumieć kontekst zapytania, wykorzystując informacje z pobranych dokumentów.
- Zmniejszone halucynacje: Modele RAG są mniej narażone na halucynacje lub generowanie bezsensownych odpowiedzi, ponieważ są oparte na wiedzy zewnętrznej.
- Możliwość adaptacji do nowych informacji: Modele RAG mogą łatwo dostosować się do nowych informacji, po prostu aktualizując zaindeksowane źródło wiedzy.
Wywoływanie funkcji: Interakcja ze światem rzeczywistym
AI Edge On-device Function Calling SDK stanowi znaczący krok w kierunku umożliwienia modelom językowym interakcji ze światem rzeczywistym. Umożliwiając modelom wywoływanie funkcji zewnętrznych, zestaw SDK odblokowuje szeroki zakres możliwości tworzenia inteligentnych i świadomych kontekstu aplikacji.
Proces wywoływania funkcji zazwyczaj obejmuje następujące kroki:
- Definicja funkcji: Programista definiuje funkcje, które model językowy może wywoływać. Obejmuje to określenie nazwy funkcji, opisu tego, co robi funkcja, oraz parametrów, które funkcja akceptuje.
- Tworzenie obiektu narzędzia: Programista tworzy obiekt
Tool
, który hermetyzuje definicję funkcji. Ten obiekt jest następnie przekazywany do modelu językowego. - Generowanie wywołania funkcji: Gdy model językowy musi wykonać działanie w świecie rzeczywistym, generuje wywołanie funkcji. To wywołanie zawiera nazwę funkcji, która ma zostać wywołana, oraz wartości parametrów, które mają zostać przekazane do funkcji.
- Wykonanie funkcji: Wywołanie funkcji jest następnie wykonywane przez system. Zazwyczaj obejmuje to wywołanie odpowiedniego API lub usługi.
- Przesyłanie wyników: Wyniki wykonania funkcji są następnie przesyłane z powrotem do modelu językowego.
- Generowanie odpowiedzi: Na koniec model językowy wykorzystuje wyniki wykonania funkcji do wygenerowania odpowiedzi.
Zestaw SDK wywoływania funkcji umożliwia modelom językowym wykonywanie szerokiego zakresu zadań, takich jak:
- Dostęp do informacji ze źródeł zewnętrznych: Model może wywoływać funkcje w celu pobierania informacji z baz danych, API i innych źródeł zewnętrznych.
- Sterowanie urządzeniami i sprzętami: Model może wywoływać funkcje w celu sterowania urządzeniami inteligentnego domu, takimi jak światła, termostaty i urządzenia.
- Przeprowadzanie transakcji: Model może wywoływać funkcje w celu przeprowadzania transakcji finansowych, takich jak dokonywanie płatności i przesyłanie środków.
- Automatyzacja zadań: Model może wywoływać funkcje w celu automatyzacji złożonych zadań, takich jak planowanie spotkań i wysyłanie e-maili.
Galeria Google AI Edge: Prezentacja innowacji
Galeria Google AI Edge służy jako istotna platforma do prezentacji możliwości Gemma 3n i powiązanych z nią narzędzi. Zapewniając interaktywne środowisko, w którym programiści mogą eksperymentować z tymi technologiami, galeria wspiera innowacje i przyspiesza rozwój nowych aplikacji.
Galeria zawiera różnorodną gamę modeli i wersji demonstracyjnych, prezentujących potencjał Gemma 3n w różnych zadaniach, takich jak:
- Rozpoznawanie obrazów: Identyfikacja obiektów i scen na obrazach.
- Przetwarzanie języka naturalnego: Rozumienie i generowanie języka ludzkiego.
- Rozpoznawanie mowy: Transkrypcja języka mówionego na tekst.
- Przetwarzanie dźwięku: Analiza i manipulacja sygnałami audio.
Galeria zapewnia również dostęp do pakietów AI Edge SDK, umożliwiając programistom integrację tych technologii z własnymi aplikacjami.
Przyszłość uczenia maszynowego na urządzeniu
Pojawienie się Gemma 3n i towarzyszącego mu ekosystemu zwiastuje nową erę uczenia maszynowego na urządzeniu. Łącząc wydajność, adaptacyjność i funkcjonalność, Gemma 3n umożliwia programistom tworzenie inteligentnych i świadomych kontekstu aplikacji, które mogą działać bezpośrednio na urządzeniach, bez potrzeby stałego połączenia z Internetem.
Ma to głębokie implikacje dla różnych branż, w tym:
- Mobile: Umożliwienie bardziej inteligentnych i responsywnych aplikacji mobilnych.
- IoT: Zasilanie inteligentnych urządzeń, które mogą działać niezależnie i autonomicznie.
- Automotive: Poprawa bezpieczeństwa i wygody pojazdów autonomicznych.
- Healthcare: Poprawa dokładności i wydajności diagnozy i leczenia medycznego.
W miarę ewolucji technologii uczenia maszynowego na urządzeniu, możemy spodziewać się jeszcze bardziej innowacyjnych i wpływowych aplikacji, które pojawią się w nadchodzących latach. Gemma 3n stanowi znaczący krok w tej podróży, torując drogę przyszłości, w której inteligencja jest płynnie zintegrowana z naszym codziennym życiem.