Muon и Moonlight обучение моделей
Moonshot AI представляет Muon оптимизатор и модель Moonlight обеспечивая эффективное обучение больших языковых моделей с меньшими затратами
Moonshot AI представляет Muon оптимизатор и модель Moonlight обеспечивая эффективное обучение больших языковых моделей с меньшими затратами
Moonshot AI Kimi представляет Moonlight гибридную модель экспертов MoE с 30 и 160 миллиардами параметров обученную на архитектуре Muon с 57 триллионами токенов для повышения эффективности и снижения FLOPs.
Интеграция больших языковых моделей в практические приложения остается сложной задачей. Необходимо преодолеть ограничения тонкой настройки и RAG, обеспечивая качество данных и безопасность.
Споры о тестах Grok 3 от xAI выявили необходимость большей прозрачности в оценке ИИ. Компанию обвинили в манипулировании результатами. Важен контекст, включая вычислительные затраты и разносторонний подход к тестированию, а не только погоня за цифрами.
Серия больших языковых моделей Baichuan-M1 обучена на 20 трлн токенов для улучшения медицинских возможностей
OpenAI возможно готовит GPT-45 к запуску на следующей неделе а GPT-5 может достичь AGI Сэм Альтман обещает бесплатный доступ к базовому уровню интеллекта GPT-5 и многоуровневую систему для подписчиков Plus и Pro Интеграция модели рассуждений o3 для улучшения проверки фактов и возможный релиз в мае вызывают вопросы и скептицизм
Meta с LlamaCon и Thinking Machines Lab от Mira Murati показывают разные пути в AI: открытый код против безопасности и соответствия ценностям.
xAI представила Grok 3, последнее поколение своей флагманской модели ИИ. Grok 3 превосходит GPT-4o в математических задачах и предлагает расширенные функции, такие как режимы 'Think' и 'Big Brain' для сложных запросов. Он также питает DeepSearch, инструмент для исследований на основе ИИ. Доступ к Grok 3 будет предоставляться через уровни подписки, начиная с X Premium+. xAI планирует открыть исходный код Grok 2 в ближайшие месяцы.
Разговор с Ноамом Шазиром, автором Transformer, и Джеффом Дином о развитии ИИ, от PageRank до AGI, о вычислениях для ИИ, архитектуре моделей и роли ошибок в открытиях.
Мир технологий замер в ожидании выхода Claude 4.0 от Anthropic. Этот релиз может стать поворотным моментом в развитии ИИ, предлагая значительные улучшения в обработке естественного языка и управлении задачами. Ожидается, что новая модель привнесет существенные достижения, которые могут изменить взаимодействие с ИИ для бизнеса, разработчиков и частных пользователей.