字节跳动推出OmniHuman-1 AI数字人模型,生成逼真全身动态视频
2月6日,Bytedance Digital Human Team推出了一个新的多模式数字人类解决方案Omnihuman,该解决方案可以结合任何大小和角色与单个音频输入的视频相比的单一图片,并且生成的角色视频效果生动且非常高自然。
字节推出了新的AI数字人类模型
Bondentance研究人员开发了一种称为Omnihuman-1的人工智能模型,该模型可以从单个图像中生成现实的全身动态视频,并产生惊人的结果。
该模型可以使用图片匹配音频或视频,以生成可以说话和唱歌的非常自然的人类动作视频。它可以在生成动画时保持非常高的现实感,并可以准确捕获细节,例如人的面部表情,身体运动,手势变化,对象相互作用等。
它支持各种类型的输入(例如单个角色图片和音频,视频和其他信号),并生成非常逼真的实时视频动画,从面部表情到全身运动,无论是说话,唱歌,舞蹈,舞蹈等。 ,这仅仅是过去的AI模型,可以使面部或上半身动画。
据了解,该模型基于DIT体系结构采用了多模式运动条件混合训练策略,以解决缺乏高质量数据的问题。该技术的核心是,它结合了多个输入,例如文本,音频和人类运动,使AI通过称为“完整条件”培训的创新方法从更大,更丰富的数据中心学习。
在评估结果方面,Omnihuman算法通过与多个现有模型进行定量比较,在多个评估指标中显示出显着的优势。
研究小组指出,经过18,700多个小时的人类视频数据培训,Omnihuman表现出很大的进步。通过引入多个条件信号(例如文本,音频和姿势),该技术不仅可以提高视频生成的质量,而且可以有效地减少数据浪费。
“ Omnihuman通过引入多模式条件驱动的和完整的条件培训策略,成功地解决了人类动画领域的长期数据扩展和概括能力。这一发展与AI视频生成技术越来越激烈的竞争的背景出现了。元和微软也正在积极追求类似的技术。
明年数字人口可能会达到100亿元人民币
目前,全球数字人士进入了高生产率的时代,相关行业的规模不断扩大,互联网巨头正在舞台上。
目前,除了百度,腾讯和阿里巴巴等互联网公司外,华为云,jd.com,bytedance,iflytek,iflytek,sensetime和xiaobing等制造商也参与了虚拟数字人的生产。
Tianyan检查数据显示,截至2024年9月底,中国与数字人有关的公司数量已达到1144万,仅在2024年的前五个月中,增加了174,000多家新注册公司数字人物行业。活力。
郑安格证券认为,预计数字人将成为AI大型模型的服务入口,在帮助企业实现降低成本和提高成本的同时,它将意识到TOC服务的货币化封闭式循环。
IDC发布的最新报告显示,中国虚拟数字人物市场的规模显示出快速增长的趋势,预计到2026年将达到1002.4亿元人民币。
Zhiyan Consulting认为,随着AI技术的持续发展,智能驱动的虚拟数字人将成为市场的主流。虚拟数字人的拟人化程度是其核心特征和竞争力。虚拟数字人员包括由人工智能驱动的,包括真正的人工智能驱动。其中,真正的人驱动的虚拟数字人仍然与现实生活中的人密不可分,他们的运动捕获和视听综合都需要由最高级的人完成,拟人化程度更高。目前,智能驱动器虚拟数字人受到技术和设备因素的限制,他们的人为性不如现实生活中的驱动力。
将来,随着自然语言处理和深度学习算法等人工智能技术的持续发展和突破,智能驱动的虚拟数字人的感知,表达和认知能力将得到很大改善,成本将进一步下降。
随着绩效和成本优势的持续出现,可以实现自我意识和进化的智能驱动的虚拟数字人将逐渐取代真正的人驱动的虚拟数字人,成为市场的主流,并在各个领域广泛使用。特别是,AIGC技术的兴起将帮助智能驱动的数字人员达到新的个性化定制和智能互动功能。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。