Sarvam AI发布强大LLM,挑战Meta和Google
Sarvam AI发布Sarvam-M,一款240亿参数的多语言LLM,在印度语言、数学和编程方面表现出色,性能与Meta和Google的更大模型相媲美。
Sarvam AI发布Sarvam-M,一款240亿参数的多语言LLM,在印度语言、数学和编程方面表现出色,性能与Meta和Google的更大模型相媲美。
SK电讯悄然发布A.X 4.0,深入研究其大型语言模型,该模型针对韩语进行了优化,并展示了其性能、技术规格和未来增强功能。
DMind发布DMind-1,一款专为Web3应用设计的开源大语言模型,在多个领域达到SOTA性能,且推理成本极低。
阿里巴巴推出ZEROSEARCH框架,声称可将AI模型训练成本降低近90%。该技术模拟搜索操作,无需实际API调用,解决文档质量和高昂成本问题。
上海悟空科技提出SASR训练框架,声称其性能优于SFT和RL等传统方法,挑战DeepSeek等领先机构,或表明中国AI在硬件限制下通过算法创新实现突破。
Mistral AI推出Medium 3,一款为企业打造的语言模型,兼顾成本、性能和灵活部署,助力企业应用AI。
NVIDIA的Joey Conway揭示了Llama Nemotron Ultra和Parakeet,展示了其开源大语言模型及语音识别的最新进展。
微软 Phi 系列模型展现了强化学习在 AI 领域的潜力,Phi-4 Reasoning Plus 在基准测试中表现出色。
谷歌Gemma AI模型下载量突破1.5亿,本文深入探讨Gemma的崛起、与Llama的对比、许可问题、变体及多模态能力。
Nemotron-Tool-N1采用强化学习,突破了传统LLM工具使用方法的局限,实现了更强大的工具调用能力。