APP下载
APP二维码
联系我们
APP二维码
返回
大模型训练
股市
复旦大学研究团队突破AI大模型训练瓶颈:多维复用技术提升光互连架构效率

复旦大学研究团队突破AI大模型训练瓶颈:多维复用技术提升光互连架构效率

随着人工智能(AI)模型规模的持续扩展,智能计算芯片和计算功率节点之间的通信带宽不足的问题变得越来越突出。传统的电子互连方法不再能够满足高速,大容量和高效数据交换的GPU群集,超级计算中心和云计算平台的需求。特别是在训练大型模型期间,需要在计算节点之间经常传输大量参数。互连带宽不足不仅会降低系统响应速度,而且甚至可能导致停机时间,从而严重影响计算效率和用户体验。如何从带宽和能量消耗方面打破电...

股市
复旦大学研究团队突破AI大模型训练瓶颈:多维复用技术提升光互连架构效率

复旦大学研究团队突破AI大模型训练瓶颈:多维复用技术提升光互连架构效率

随着人工智能(AI)模型规模的持续扩展,智能计算芯片和计算功率节点之间的通信带宽不足的问题变得越来越突出。传统的电子互连方法不再能够满足高速,大容量和高效数据交换的GPU群集,超级计算中心和云计算平台的需求。特别是在训练大型模型期间,需要在计算节点之间经常传输大量参数。互连带宽不足不仅会降低系统响应速度,而且甚至可能导致停机时间,从而严重影响计算效率和用户体验。如何从带宽和能量消耗方面打破电...

股市
DeepSeek开源周首日发布FlashMLA代码库,Hopper GPU优化MLA解码内核震撼登场

DeepSeek开源周首日发布FlashMLA代码库,Hopper GPU优化MLA解码内核震撼登场

最令人期待的DeepSeek“开源周”来了。2月24日,DeepSeek打开了第一个代码基flashmla。据了解,这是DeepSeek的高效MLA(多头潜在注意力)对料斗GPU进行了优化的内核,该核心专门用于处理可变长度序列,现在正在生产中。上周四,DeepSeek宣布将在本周举行“开源周”活动,连续开设五个代码库,这引发了所有人的期望。作为“开源周”的第一枚炸弹,FlashMLA为该...

股市
字节跳动大模型训练遭实习生攻击,损失超千万美元?

字节跳动大模型训练遭实习生攻击,损失超千万美元?

10月18日,一则消息在多个微信群流传:“某领先厂商的大规模模型训练被实习生黑客攻击,注入破坏性代码,导致其训练结果不可靠,可能需要重新训练。”被泄露的代码被注入了8000多张卡中,造成的损失可能超过数千万美元。”对此,证券时报e公司记者联系字节跳动,但截至发稿未得到回复。不过,接近字节人士向e公司记者透露,实习生确实破坏了AI模型训练,但损失金额和处理方式被夸大。面临安全管理问题据...