Tag: allm.link | zh-CN

扩散模型推理扩展新范式

本文探讨了在扩散模型推理过程中进行扩展的新范式,通过增加计算资源和优化采样噪声,显著提高了生成样本的质量。研究引入了验证器和算法两个核心组件,并探索了随机搜索、零阶搜索和路径搜索等算法,以优化采样过程。此外,该研究还考察了文本到图像生成任务中搜索框架的扩展能力,以及不同验证器和算法组合对生成质量的影响。结果表明,在推理时进行扩展可以有效地提升扩散模型的性能,并且在较小的模型上进行搜索可以取得与大型模型相媲美的效果。

扩散模型推理扩展新范式

OpenAI o3-Mini几周内发布 奥特曼称AGI仅需872兆瓦

OpenAI即将发布新模型o3-Mini,该模型是大型模型的蒸馏版本,性能虽不如O1-Pro但速度更快。同时,奥特曼表示实现AGI只需872兆瓦计算功率,引发业界对OpenAI技术进展的猜测。

OpenAI o3-Mini几周内发布 奥特曼称AGI仅需872兆瓦

阶跃新型注意力机制:KV缓存消耗降93.7% 性能不减反增

阶跃星辰与清华大学等机构联合发布多矩阵分解注意力(MFA)机制,显著降低大语言模型推理成本,KV缓存使用量减少高达93.7%,同时保持甚至超越传统MHA性能。MFA易于实现,对超参数不敏感,兼容多种位置编码,为大模型高效推理提供了新方案。

阶跃新型注意力机制:KV缓存消耗降93.7% 性能不减反增

ESM3蛋白质研究突破'免费API获Yann LeCun认可'

Evolutionaryscale的ESM3模型是蛋白质研究的重大突破,拥有980亿参数,能模拟5万亿年的自然进化。现在,ESM3免费开放API,并获得Yann LeCun的认可,它在理解和生成蛋白质方面具有巨大潜力,尤其是在医疗领域。

ESM3蛋白质研究突破'免费API获Yann LeCun认可'

微软MatterGen: AI材料设计突破,精度提升10倍

微软推出MatterGen,一款用于无机材料设计的突破性大型语言模型,基于扩散模型架构,能快速生成新型材料,尤其在锂离子电池正极材料的开发中展现巨大潜力。MatterGen通过优化原子类型、坐标和晶格,显著提高材料发现的效率和质量,生成的结构更接近DFT局部能量最小值,为电动汽车、航空航天和电子芯片等高科技领域带来革命性变革。

微软MatterGen: AI材料设计突破,精度提升10倍

斯坦福研究揭示ChatGPT性能下降

斯坦福大学和加州大学伯克利分校的研究人员在《哈佛数据科学评论》上发表了一篇名为'ChatGPT行为随时间变化'的论文,揭示了GPT-3.5和GPT-4在三个月内的性能和行为出现显著波动。研究发现,GPT-4在数学问题解决、代码生成等多个任务上的准确性下降,且遵循指令的能力也减弱。同时,研究还发现模型在处理敏感问题和内容过滤方面也出现了变化。这项研究强调了保持大型语言模型一致性和可靠性的挑战。

斯坦福研究揭示ChatGPT性能下降

Qwen拥抱FLock:中心化与去中心化的融合

Qwen与去中心化AI平台FLock合作,探索中心化和去中心化AI的融合,解决数据隐私和所有权问题,并推动AI技术的创新和普及。

Qwen拥抱FLock:中心化与去中心化的融合