OpenAI 面临高质量数据不足困境，AI 模型改进速度或放缓

来源：网络作者：日期：2024-11-10 11:02:56

一些测试过Orion的OpenAI员工发现，虽然Orion的性能超过了OpenAI现有的所有模型，但其性能质量的提升远小于从GPT-3到GPT-4的飞跃。这意味着随着高质量数据变得有限，人工智能模型的改进可能会放缓。

不仅如此，Orion的训练涉及AI从旧模型（例如GPT-4和一些推理模型）生成的数据，这可能会导致它重现旧模型的一些行为。

为此，OpenAI 成立了一个“基础”团队来研究新方法，以便在高质量新数据供应减少的情况下保持 AI 模型的改进。据悉，该公司计划基于AI合成数据来训练Orion，并在后期训练中对模型进行更多改进。

目前，OpenAI正在推进Orion的安全测试，计划明年初发布该模型。它可能会打破“GPT-X”命名约定以反映模型开发的变化。

值得注意的是，OpenAI 今年收购了 Chat.com 域名，该域名重定向到 OpenAI 的人工智能聊天机器人 ChatGPT。

碰撞缓冲_放碰撞算法_

“撞上数据墙”

早在2020年，OpenAI就在论文中提出了Scaling law，这意味着大模型的最终性能主要与计算量、模型参数量、训练数据量有关，并且与模型的具体结构（层数/深度/宽度）基本上无关。换句话说，简单地增加模型大小和训练数据就可以显着提高人工智能能力，而无需实现根本性的算法突破。

AI行业的许多公司曾经将Scaling Law视为指导方针，但现在，越来越多的质疑浮现。

Meta AI人工智能研究院（FAIR）研究员、高级经理田元东指出，“我画了一张图，一开始的数据量越大，模型的性能越好，但模型越接近对于人类来说，获取新数据越困难，模型就越难以改进，最终总会出现无法解决的极端情况，这就是数据驱动的最大问题。”

非营利研究组织Epoch AI在今年7月更新的论文中指出，未来几年，（原始）数据的增长速度将难以支撑大型AI模型的扩展和发展。 2026 年至 2032 年之间的某个时刻，数据库存将会耗尽。

事实上，这并不是OpenAI第一次遇到“数据资源不足”的问题。此前媒体报道指出，在训练 GPT-5 时，由于文本数据不足，OpenAI 正在考虑使用从 YouTube 公开视频转录的文本。

现在OpenAI再次遇到数据资源问题，甚至影响了新模型的进度。 “但这意味着‘天塌了’”，The Information 这篇文章的作者之一 Amir Efrati 指出，OpenAI 正在做出调整，或许新的 Scaling Law 将取代旧的 Scaling Law。

值得一提的是，当地时间11月9日，OpenAI安全系统团队负责人Lilian Weng宣布，在工作近7年后，他将离开OpenAI。她公开分享了发给团队的辞职信，但没有具体说明辞职的具体原因以及未来的职业方向。她只说“是时候重新开始，探索新的领域了”。

分类： 股市

地址： http://news.lianzhou.cn/post/2564.html

责任编辑： admin

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。