Tag: LLM

Kimi k1.5: Nowy Lider AI Dorównuje OpenAI o1

Model Kimi k1.5 od Moonshot AI osiągnął poziom wydajności porównywalny z pełną wersją o1 OpenAI, wyznaczając nowy standard w dziedzinie sztucznej inteligencji. Model ten wyróżnia się w matematyce, kodowaniu i rozumowaniu multimodalnym, a jego wariant short-CoT przewyższa GPT-4o i Claude 3.5 Sonnet. Otwarta publikacja raportu technicznego podkreśla transparentność i ducha współpracy Moonshot AI.

Kimi k1.5: Nowy Lider AI Dorównuje OpenAI o1

OpenAI Agent AI w Czasie Rzeczywistym w 20 Minut

Artykuł omawia przełomowe osiągnięcie OpenAI, jakim jest stworzenie agenta AI działającego w czasie rzeczywistym, który można opracować w zaledwie 20 minut. Ta technologia, oparta na zaawansowanych modelach językowych, oferuje szybką interakcję z użytkownikiem, elastyczne zarządzanie zadaniami i efektywne wykorzystanie dużych modeli, co rewolucjonizuje proces tworzenia aplikacji AI.

OpenAI Agent AI w Czasie Rzeczywistym w 20 Minut

Nowy Mechanizm Atencji Redukujący Pamięć KV Cache

Artykuł omawia nowy mechanizm uwagi o nazwie Multi-matrix Factorization Attention (MFA) i jego wariant MFA-Key-Reuse (MFA-KR), który znacząco redukuje zużycie pamięci KV Cache w modelach językowych, jednocześnie poprawiając wydajność. MFA i MFA-KR przewyższają MLA i dorównują MHA, zmniejszając zużycie pamięci KV Cache nawet o 93.7%. Mechanizm ten charakteryzuje się prostotą, łatwością reprodukcji, niską wrażliwością na hiperparametry i kompatybilnością z różnymi metodami Pos-embedding. Analiza projektu mechanizmów uwagi doprowadziła do koncepcji Generalized Multi-Head Attention (GMHA) i Fully Parameterized Bilinear Attention (FPBA) jako teoretycznego limitu wydajności. MFA wykorzystuje zwiększoną liczbę i wymiar głów uwagi, strategię niskiego rzędu rozkładu oraz pojedynczą głowę klucz-wartość. Eksperymenty pokazały, że MFA zachowuje dobrą skalowalność i wydajność przy dużych modelach, a w połączeniu z MFA-KR osiąga znaczne oszczędności pamięci.

Nowy Mechanizm Atencji Redukujący Pamięć KV Cache

ESM3 Przełom w Badaniach Białek Symuluje 500 Milionów Lat Ewolucji Darmowe API i Poparcie Yanna LeCuna

Model ESM3 firmy Evolutionaryscale, największy model biologiczny na świecie z 98 miliardami parametrów, oferuje bezpłatne API przyspieszające badania białek. Yann LeCun chwali to osiągnięcie jako 'bardzo fajne'. ESM3 symuluje 5 bilionów lat ewolucji, przetwarzając sekwencje, strukturę i funkcję białek, otwierając nowe możliwości w medycynie i inżynierii białek.

ESM3 Przełom w Badaniach Białek Symuluje 500 Milionów Lat Ewolucji Darmowe API i Poparcie Yanna LeCuna

Przełomowy Model AI Microsoftu w Projektowaniu Materiałów Zwiększa Dokładność 10x

Microsoft zaprezentował MatterGen, przełomowy model językowy AI do tworzenia materiałów nieorganicznych. Model ten, oparty na architekturze dyfuzyjnej, optymalizuje typy atomów, koordynaty i sieci krystaliczne, umożliwiając szybkie generowanie nowych materiałów. MatterGen zwiększa proporcję stabilnych, unikalnych materiałów i jest bliski lokalnemu minimum energii DFT. Wykorzystuje proces dyfuzji do tworzenia uporządkowanych struktur krystalicznych, a sieć ekwiwariantnych ocen pomaga w odzyskiwaniu oryginalnych struktur. Moduły adaptera umożliwiają dostosowanie modelu do różnych zadań. Technologia ta jest porównywana do AlphaFold i ma potencjał rewolucjonizować wiele dziedzin, w tym technologię baterii i przezwyciężanie globalnych wyzwań.

Przełomowy Model AI Microsoftu w Projektowaniu Materiałów Zwiększa Dokładność 10x