APP下载
APP二维码
联系我们
APP二维码
返回

李飞飞团队以不到50美元成本训练AI模型s1,性能媲美OpenAI O1和DeepSeek R1

来源:网络   作者:   日期:2025-02-07 00:12:14  

据报道,来自Fly-Fei Li和华盛顿大学的研究人员成功地培训了一种名为S1的人工智能推断模型,价格低于50美元的云计算。该模型在数学和编码能力测试中的性能可与OpenAI的O1和DeepSeek的R1等尖端推理模型相提并论。

毫无疑问,这一消息在AI行业中放弃了重磅炸弹。什么是事实?

在调查和采访行业内部人士之后,“科学技术创新委员会日报”的记者发现,S1模型的培训并没有从头开始,而是根据阿里巴巴Cloud Tongyi Qianwen模型进行了监督和微调。这意味着S1模型的神奇“低成本”是基于已经具有强大功能的开源基本模型。

tongyi模型的“基础”的作用

根据Li Feifei等人的研究论文,仅使用1,000个样本数据进行S1模型的培训。根据行业共识,这一数量的数据在AI培训中非常小,通常不足以培训具有推理能力的模型。

上海Jiotong大学人工智能学院的年轻AI科学家兼副教授Xie Weidi告诉《科学技术创新委员会记者》,如果您仔细研究了斯坦福大学S1的论文,您会发现S1模型的魔力是用Tongyi Qianwen模型对基础进行微调,而这1000个样本训练的作用更像是“锦上添花”,而不是“从头开始”。

一家著名的国内大型模特公司的首席执行官还告诉《科学与创新委员会每日科学与创新委员会》记者:“从本文的原始文本中,所谓的具有50美元的推理能力的新型号的培训实际上是只是从Google的型号中提取,然后监督Tongyi Qianwen模型的微调。型号。”

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型_李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型_

斯坦福S1纸的原始文本还指出,该模型是根据阿里巴巴·汤蒂·Qianwen模型进行了微调的。

西·韦迪(Xie Weidi)指出,在国内外,其他团队也声称自己以极低的成本进行推理功能培训新车型。但是,一旦阅读了他的论文的原始文本,您会发现它们都是基于一般意义模型作为基础的一般含义。

_李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型_李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

许多外国人工智能研究人员还指出,许多“新”模型基于建立通用模型。

“使用Tongyi Qianwen模型作为基础,确实有可能实现几乎没有样本数据的新推论模型的效果,但是如果将其替换为其他基本模型,那么新模型的功能将无法提高因此,真正的魔术是QWEN模型,而不是S1。”西维迪说。

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型__李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

大型模型的低成本培训有局限性,但这也是方向

尽管S1模型的低成本训练在某种程度上证明了AI训练的潜力,但它的局限性不容忽视。

首先,这种低成本的培训依赖于现有强大的基座模型,例如阿里巴巴·汤蒂·Qianwen模型。没有这样的基本模型,低成本训练的效果将大大降低。

其次,在大多数情况下,1000个样本数据的训练量还不够,尤其是在需要复杂任务的情况下。

此外,低成本培训的成功也引发了有关AI模型的知识产权和道德问题的讨论。如果越来越多的研究依赖于现有的基本模型进行微调,那么这些基本模型的开发人员是否应获得相应的回报?如何确保AI技术的合理使用和共享?这些问题需要在行业中进一步讨论和解决。

尽管S1模型的低成本培训引起了争议,但其背后的研究思想无疑为AI领域的思考提供了新的方向。

武汉人工智能学院的一名高级研究员告诉《科学技术创新委员会》的记者,如何在确保模型绩效的同时降低培训成本是AI研究中的重要主题。将来,随着技术的发展和算法的优化,也许我们确实可以看到更多的低成本和高性能的AI模型。

分类: 股市
责任编辑: admin
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

相关文章:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。