英伟达新AI模型Fugatto可创声音效果等虽无发布计划但影响广泛

来源：网络作者：日期：2024-11-26 11:09:47

据报道，英伟达开发了一种新的人工智能（AI）模型，可以创造声音效果，改变人们发音的方式，并使用自然语言提示生成音乐。

该模型名为 Fugatto，即基础生成音频变压器 Opus 1，是一个研究项目。英伟达表示，不会宣布任何发布该技术的计划，但它可能会对从音乐、娱乐到翻译服务等行业产生广泛影响。

Nvidia 应用深度学习研究副总裁 Bryan Catanzaro 在接受采访时表示：“Fugatto 最令人兴奋的是它有一个模型，你可以要求它以某种方式发出声音，这真正打开了你的应用程序的想象力。”

他进一步解释说，市场上的其他型号，有的可以合成语音，有的可以为音乐添加音效，但 Fugatto 都能做到。 Catanzaro 表示，它可以被视为视频和图像生成模型的补充，例如 Stability AI 的 Stable Video Diffusion 或 OpenAI 的 Sora。

“这里最根本的改进是......我们使用语言合成音频的能力，我认为这为人们可以用来创建令人惊叹的音频的工具开辟了新的前景，”他补充道。

据 Nvidia 称，Fugatto 是第一个具有紧急属性的基础模型，这意味着它能够混合经过训练的元素并遵循“自由格式指令”。

具体来说，该模型可以根据标准文本提示生成音频，也可以处理您上传的音频文件。因此，如果您有一个人讲话的文件，您可以将该人的话翻译成另一种语言，同时使其听起来像他的声音。您还可以选择简单的曲调，使其听起来像管弦乐演奏，或者在音乐中添加不同的节拍。

或者，您可以上传文档并让模型以您喜欢的任何声音朗读。此外，您可以告诉模型发出带有情感分量的声音。

不过，卡坦扎罗也补充说，这种模式并不总是完美的。而且，与生成图像和视频的模型一样，Fugatto 将引起艺术家、音响工程师和相关领域人士的关注。但卡坦扎罗指出，他的目的是让这项技术帮助音乐家。

“我希望这是艺术家探索的新工具。” “我认为音频一直是一个富有成果的探索领域。你知道，当我们获得新的音频工具时，有时我们会获得新的音乐形式，”他说。

_音频消除人声_怎样将音频中的人声去掉

分类： 股市

地址： http://news.lianzhou.cn/post/3557.html

责任编辑： admin

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

英伟达新AI模型Fugatto可创声音效果等 虽无发布计划但影响广泛