DeepSeek-R1劲敌?32B参数的QwQ解析
阿里巴巴的 QwQ 模型仅有320亿参数,却在数学、编码和函数调用等特定基准测试中超越了6710亿参数的 DeepSeek R1。它使用了强化学习和验证机制。
阿里巴巴的 QwQ 模型仅有320亿参数,却在数学、编码和函数调用等特定基准测试中超越了6710亿参数的 DeepSeek R1。它使用了强化学习和验证机制。
AMD 在北京 AI PC 创新峰会上宣布,基于 RDNA 4 架构的 Radeon RX 9070 系列显卡首批销量超过 20 万张。尽管 AIB 合作伙伴提价,但 AMD 强调了 MSRP 定价,并展示了其在 AI 和高性能计算领域的持续创新,包括 Ryzen 9 9000X3D CPU。未来供应预计将趋于稳定。
AMD Ryzen AI Max+ 395 芯片性能强劲,但在与 Apple M4 Pro 的 AI 性能对比中,结果令人惊讶。本文深入探讨了基准测试方法、x86 与 Arm 架构的对比以及未来发展方向。
百度推出了两款全新的人工智能 (AI) 模型。该公司声称,在特定的基准评估中,这些新产品的性能超越了DeepSeek和OpenAI的竞品。这一进展进一步加剧了大型语言模型 (LLM) 领域快速发展的竞争。
字节跳动豆包AI团队推出开源框架COMET,优化MoE方法,显著提升大语言模型 (LLM) 训练效率并降低成本。该技术已在字节跳动内部大规模应用,节省了数百万GPU计算时。
DeepSeek,一家成立仅一年多的中国公司,发布了一款开源大语言模型 (LLM)。该模型以其更低的功耗、运营成本和在各种基准测试中的出色表现而备受关注,代表了更高效、更经济的LLM和非语言生成式AI (GenAI) 模型的发展趋势。
DeepSeek,一家中国AI初创公司,因其与中国领导人的会面而迅速崛起。 这种快速应用带来了前所未有的机遇,但也伴随着潜在的风险,包括扩展挑战、监管问题以及国际竞争。
Google近期发布的Gemma 3 AI模型,在处理复杂任务和提升效率方面取得了显著进展。其单GPU运行能力降低了能耗和成本,推动了AI的普及化和可持续发展。Gemma 3的架构可能基于Transformer,并采用了模型剪枝、量化等优化技术。
VentureBeat的资深AI记者Emilia David最近与CBS News分享了对Google突破性的Gemma 3 AI模型的见解。这款创新模型只需单个GPU即可处理复杂挑战,有望重新定义人工智能领域,并以其前所未有的效率解决复杂问题。
Meta 的开源大型语言模型 Llama 下载量已超过 10 亿次。这一成就彰显了开源 AI 的重要性及其普及尖端技术的潜力,惠及各行各业,如 Spotify、'Unveil' 和 Fynopsis。