字节跳动豆包大模型重磅更新，视觉理解模型价格大幅降低

来源：网络作者：日期：2024-12-18 16:28:00

截至目前，豆宝模型日均代币使用量超过4万亿，发布7个月内增长超过33倍。

在今天的火山引擎动力大会上，豆宝发布了视觉理解模型，具有更强的内容识别、理解推理、视觉描述能力。火山引擎总裁谭岱宣布，豆宝视觉理解模型价格已降至0.003元/千Token，较行业平均价格低85%。

此外，字节豆宝新一代视频生成模式将于明年1月正式发布。此外，抖音图像视频生成工具萌爱展示了新一代图像生成模型和动态海报功能。

从今天字节的各种新进展来看，其在生成式AI领域依然保持着“饱和”策略。

此前，字节豆宝大模型家族已包含通用语言、语音合成与识别、图片视频等不同模式的生成式AI模型，但仍缺乏具有视觉能力的交互式多模态大模型；此外，字节跳宝此前已开始在AI硬件端布局智能耳机、智能娃娃、台灯等。但也受限于交互多模态模型的缺乏，AI硬件产品仍然只能实现语音级别的交互。。

一定程度上，豆宝今天发布的视觉理解模型弥补了《豆宝全家桶》在视觉交互上的这一短板。

西部证券12月15日的报告指出，视觉能力是大模型能力的核心，因为视觉输入占据了人类交互信息的绝大多数。在包括AI玩具或AI眼镜在内的下一代AI硬件终端中，视觉SoC预计将成为标准设备，也将增加对NAND存储芯片的需求。分析师建议关注视觉SoC公司恒玄科技、星辰科技、安凯微；存储公司有东芯科技和普然科技。

国盛证券也表示，字节跳动目前拥有开放的耳机音频技术、大模型技术和丰富的软件应用生态，有望应用于AI眼镜产品，成为该赛道的核心玩家。

算力需求可能进一步扩大

另一方面，从豆宝的大文本模型到视觉理解模型和视频生成模型，可以看出“豆宝+”生态似乎已经初具规模。如果加上更多字节旗下的AI应用，比如猫象、极萌等，字节跳动的算力需求可能会达到另一个层次。国盛证券近期的一份研究报告也指出，算力是字节AI产业链的核心方向。

根据媒体援引分析师的测算，仅基于类似于豆宝的文本模型，以ChatGPT MAU（月活跃用户）6亿计算，推理需求大约需要35万张A100显卡，训练需求需要12万张A100显卡。

与文本模型相比，大视频模型对计算能力的要求更高。例如，Sora 正式上线后不久，OpenAI 的算力就耗尽了。

上述分析师以极萌AI为例计算，如果极萌视频生成模型Magic Video v2的MAU达到1亿，每天需要生成10分钟的视频，则需要28万个Nvidia H100 GPU， MAU将达到2亿小时。预计，H100的需求量将达到55万辆。

服务器代工厂英业达此前已获得字节跳动、百度、阿里巴巴、腾讯等公司的订单。主要出货形式为L10（机柜组装和测试）和L11（服务器集成和机架构建）。最近的声明还暗示了字节等公司对算力的强劲需求。本季度客户对AI服务器的需求强于预期。今年AI服务器营收预计同比增长2.5-3倍，明年出货量将进一步升温。

民生证券指出，豆宝用户数量的快速增长将带来算力中心的扩张，进而增加对AI服务器的需求。同时，算力中心的扩张不仅会带来基础设施需求，还会带来热管理需求。需求方面，字节AI液冷有望带动广阔的市场空间。

据科创板日报不完全统计，A股市场字节跳动计算硬件相关公司包括：