字节跳动大模型训练遭实习生攻击，损失超千万美元？

来源：网络作者：日期：2024-10-19 12:31:46

10月18日，一则消息在多个微信群流传：“某领先厂商的大规模模型训练被实习生黑客攻击，注入破坏性代码，导致其训练结果不可靠，可能需要重新训练。”被泄露的代码被注入了 8000 多张卡中，造成的损失可能超过数千万美元。”

对此，证券时报e公司记者联系字节跳动，但截至发稿未得到回复。不过，接近字节人士向e公司记者透露，实习生确实破坏了AI模型训练，但损失金额和处理方式被夸大。

面临安全管理问题

据界面新闻报道，从知情人士处获悉，龙头厂商为字节跳动。这起事件发生在今年6月。起因是某大学的一名博士正在字节跳动商业化技术团队实习。由于对团队的资源分配不满意，他利用攻击代码破坏了团队的模型训练任务。

传言称，田姓实习生利用HF（huggingface）漏洞，在公司共享模型中编写破坏性代码，导致模型训练效果出现波动，无法产生预期训练效果，AML团队无法验证原因。。不过，谣言曝光后，该实习生也在微信群中辟谣，并表示自己在发表论文后就从字节跳动辞职。这时，另一个人利用漏洞更改了模型代码，并将责任归咎于自己。

据知情人士透露，字节跳动内部调查认定，该事件是一名田姓实习生所为。目前，该实习生已被解雇，字节跳动已将此事同步报告给产业联盟和实习生所在学校。然而，这名实习生被解雇后，却到处“辟谣”，指责别人，声称是别人的责任。

另一篇报道称，一位技术安全专家向媒体表示，HF漏洞的发生通常与单一目的的集中训练有关。此次事件暴露了字节跳动在技术培训方面的安全管理问题。该公司既没有实施权限隔离，也没有对共享代码进行审计。一般情况下，每次重大的代码变更都应该经过审计，记录操作痕迹，以保证代码不被单独篡改。

技术安全专家指出，目前业界普遍的做法是实行三级隔离型部署，每一级只包含镜像，每次操作前都会进行扫描。该通话按次付费，并且必须提供密钥。每个级别完成后才能进入下一个级别，上一个级别会自动删除，实现分级训练。

事实上，e公司记者注意到，大型车型的安全问题已引起业内高度关注。今年8月，中国信息通信研究院发文表示，近年来，以大模型为核心的人工智能技术快速发展，成为数字经济增长的新动力。然而，大型模型作为一种新型生产力，在安全性方面仍然存在诸多缺陷，这给其大规模应用带来了不确定性。近日，中国信息通信研究院发布的大型模型安全基准AI Safety Benchmark的测试结果显示，恶意诱导方法下大型模型（尤其是开源大型模型）的攻击成功率与原始输入相比显着提高。因此，迫切需要安全地对齐大型模型。

超大型大模型应用

今年以来，字节跳动作为领先的互联网公司，正在加大大模型建设和应用的力度。 5月15日，字节跳动的豆袋模型在火山引擎动力大会上发布。火山引擎是字节跳动旗下的云服务平台。火山引擎总裁谭岱现场介绍，豆宝模型正在成为国内使用量最大、应用场景最丰富的大型模型之一。目前平均每天处理 1200 亿个 Token 文本，生成 3000 个 Token。数千张图片。豆宝主力机型在企业市场的价格仅为0.0008元/千Token。能以0.8%的速度处理1500多个汉字，比业界便宜99.3%。

此后，各大厂商开始大幅降价大机型，价格战愈演愈烈。

今年8月，字节跳动火山引擎宣布推出对话式AI实时交互解决方案，搭载火山方舟大模型服务平台，通过火山引擎RTC实现语音数据的采集、处理和传输，并深入集成了豆宝语音识别模型和豆宝语音合成模型，简化了语音转文字、文字转语音的转换流程，提供智能对话和自然语言处理能力，帮助应用快速实现用户与大型企业之间的实时语音通话云模型。

近日，字节跳动也宣布进军AI视频生成领域。 9月24日，字节跳动旗下火山引擎发布了豆宝视频生成两大模型——PixelDance和豆宝视频生成——Seaweed，并针对企业市场启动邀请测试。据火山引擎介绍，新设计的扩散模型训练方法克服了多镜头切换的一致性问题。据火山引擎数据显示，截至9月份，豆宝语言模型日均代币使用量超过1.3万亿，比5月份首次发布时增长了十倍。

10月15日，在2024火山引擎视频云技术大会上，火山引擎正式发布大模型训练视频预处理解决方案。该方案能够有效解决视频大模型训练的成本、质量和性能等技术挑战，并已应用于豆宝·视频生成模型。

分类： 股市

地址： http://news.lianzhou.cn/post/1048.html