Tag: AIGC

Okulary AR Rokid: Przyszłość AI w Chinach

Rokid, chiński producent urządzeń AR, prezentuje okulary z AI oparte na modelach Qwen firmy Alibaba. Praktyczne zastosowania, przystępna cena i wsparcie rządu napędzają rozwój. To symbol ambicji Chin w globalnym wyścigu technologicznym AI i rewolucji AR, oferując przystępne i innowacyjne rozwiązania dla firm.

Okulary AR Rokid: Przyszłość AI w Chinach

Sopra Steria i Mistral AI: Sojusz AI

Sopra Steria i Mistral AI łączą siły, aby dostarczać zaawansowane, suwerenne rozwiązania AI, dostosowane do potrzeb europejskich przedsiębiorstw i administracji publicznej, kładąc nacisk na bezpieczeństwo danych.

Sopra Steria i Mistral AI: Sojusz AI

Muon i Moonlight Nowe Podejście

Naukowcy z Moonshot AI prezentują Muon i Moonlight optymalizujące trening dużych modeli językowych dzięki wydajnym technikom Zmniejszają obciążenie obliczeniowe i zwiększają stabilność

Muon i Moonlight Nowe Podejście

Kimi Open Source Model Moonlight

Kimi firmy Moonshot AI prezentuje 'Moonlight' hybrydowy model ekspertów MoE z 30 i 160 miliardami parametrów Trenowany na architekturze Muon osiąga wydajność Pareto dzięki 57 bilionom tokenów

Kimi Open Source Model Moonlight

Modele BaichuanM1 medyczne LLM

Baichuan-M1 to seria dużych modeli językowych skupiająca się na medycynie wytrenowana na 20 bilionach tokenów Model ten oferuje zaawansowane możliwości w zastosowaniach medycznych przewyższając inne modele

Modele BaichuanM1 medyczne LLM

Sztuczna inteligencja ma problemy z historią świata - nowe badanie

Badanie ujawnia, że modele sztucznej inteligencji, takie jak GPT-4, Llama i Gemini, mają trudności z poprawnym odpowiadaniem na pytania dotyczące historii świata, osiągając zaledwie 46% skuteczność. To odkrycie podkreśla istotne luki w ich zdolnościach i rodzi obawy co do ich wiarygodności w dziedzinach wymagających solidnej wiedzy o przeszłości.

Sztuczna inteligencja ma problemy z historią świata - nowe badanie

Skalowanie wnioskowania modeli dyfuzyjnych Nowy paradygmat

Badanie przeprowadzone przez Xie Saining na Uniwersytecie Nowojorskim wykazało, że skalowanie czasu wnioskowania jest skuteczne dla modeli dyfuzyjnych. Zwiększenie zasobów obliczeniowych podczas wnioskowania prowadzi do znaczącej poprawy jakości generowanych próbek. W ramach tego badania opracowano ogólne ramy wyszukiwania, które pozwalają na dostosowywanie kombinacji komponentów do różnych zastosowań. Badanie skupia się na dwóch głównych osiach projektowych: weryfikatorach, które dostarczają informacji zwrotnej podczas procesu wyszukiwania, oraz algorytmach, które pomagają w znalezieniu lepszych kandydatów na szum. Badano różne scenariusze weryfikatorów i algorytmów, w tym wyszukiwanie losowe, wyszukiwanie zerowego rzędu i wyszukiwanie ścieżki. Wyniki pokazują, że skalowanie czasu wnioskowania jest skuteczne również w zadaniach generowania tekstu na obraz, a w niektórych przypadkach mniejsze modele ze skalowaniem mogą przewyższyć większe modele bez skalowania.

Skalowanie wnioskowania modeli dyfuzyjnych Nowy paradygmat

Nowy Mechanizm Atencji Redukujący Pamięć KV Cache

Artykuł omawia nowy mechanizm uwagi o nazwie Multi-matrix Factorization Attention (MFA) i jego wariant MFA-Key-Reuse (MFA-KR), który znacząco redukuje zużycie pamięci KV Cache w modelach językowych, jednocześnie poprawiając wydajność. MFA i MFA-KR przewyższają MLA i dorównują MHA, zmniejszając zużycie pamięci KV Cache nawet o 93.7%. Mechanizm ten charakteryzuje się prostotą, łatwością reprodukcji, niską wrażliwością na hiperparametry i kompatybilnością z różnymi metodami Pos-embedding. Analiza projektu mechanizmów uwagi doprowadziła do koncepcji Generalized Multi-Head Attention (GMHA) i Fully Parameterized Bilinear Attention (FPBA) jako teoretycznego limitu wydajności. MFA wykorzystuje zwiększoną liczbę i wymiar głów uwagi, strategię niskiego rzędu rozkładu oraz pojedynczą głowę klucz-wartość. Eksperymenty pokazały, że MFA zachowuje dobrą skalowalność i wydajność przy dużych modelach, a w połączeniu z MFA-KR osiąga znaczne oszczędności pamięci.

Nowy Mechanizm Atencji Redukujący Pamięć KV Cache

ESM3 Przełom w Badaniach Białek Symuluje 500 Milionów Lat Ewolucji Darmowe API i Poparcie Yanna LeCuna

Model ESM3 firmy Evolutionaryscale, największy model biologiczny na świecie z 98 miliardami parametrów, oferuje bezpłatne API przyspieszające badania białek. Yann LeCun chwali to osiągnięcie jako 'bardzo fajne'. ESM3 symuluje 5 bilionów lat ewolucji, przetwarzając sekwencje, strukturę i funkcję białek, otwierając nowe możliwości w medycynie i inżynierii białek.

ESM3 Przełom w Badaniach Białek Symuluje 500 Milionów Lat Ewolucji Darmowe API i Poparcie Yanna LeCuna