OpenAI 人工智能转录工具 Whisper 存在编造文字缺陷,引发严重后果担忧
然而,随着转录工具在各个行业越来越流行,它的问题似乎也开始显现出来。根据行业媒体对十几位软件工程师、开发人员和学术研究人员的采访,Whisper 现在的一个重大缺陷已经变得越来越难以忽视:它可以轻松编造大块文本,甚至整个句子。
这些行业专家表示,一些捏造的文本(业内称为“幻觉”)可能包括种族诽谤、暴力语言,甚至完全捏造的医疗建议。
专家们越来越担心这种“造假”可能会造成严重后果,因为 Whisper 目前被世界各地多个行业用来翻译和转录采访、生成文本以及为视频创建字幕。尽管 OpenAI 警告称该工具不应在“高风险区域”使用,但美国一些医疗中心现在开始使用基于 Whisper 的工具来记录患者和医生之间的对话。
据经常使用 Whisper 的研究人员和工程师称,他们在工作中经常遇到该工具引起的“幻觉”。例如,密歇根大学的一位研究人员在研究公开会议转录的准确性时发现,他审阅的十个音频转录中有八个包含“错觉”。
一位机器学习工程师表示,在他分析的 100 多个小时的 Whisper 记录中,他最初发现大约一半存在“幻觉”。第三位开发人员指出,他使用 Whisper 创建的 26,000 条记录中几乎每一条都发现了伪造。
即使是简短、录制良好的音频样本,问题仍然存在。在最近的一项研究中,计算机科学家发现超过 13,000 个清晰的音频片段中有 187 个存在“错觉”问题。
研究人员表示,这种趋势将导致数百万条录音中出现数以万计的错误转录。
严重后果
拜登政府白宫科技政策办公室负责人阿隆德拉·纳尔逊表示,此类错误可能会造成“非常严重的后果”,尤其是在医院。
目前,包括明尼苏达州曼凯托诊所和洛杉矶儿童医院在内的超过 30,000 名临床医生和 40 个卫生系统已开始使用法国人工智能诊断和治疗公司 Nabla 打造的基于 Whisper 的工具。
Nabla 首席技术官 Martin Raison 表示,该工具针对医学语言进行了微调,用于转录和总结医患互动。该工具现已转录约 700 万份医疗记录。公司官员还指出,他们知道 Whisper 可能会导致幻觉,并正在努力解决这个问题。
“没有人希望误诊,”现任普林斯顿高级研究所教授的尼尔森说。 “(在该领域)应该有更高的标准。”
Whisper 目前还被用来为聋哑人和听力障碍人士制作字幕,这些人特别容易受到错误转录的影响,而这些转录错误对于那些“隐藏在所有文本中”的捏造内容的人来说是完全无法理解的。
这种幻觉在 Whisper 中的普遍存在,促使众多专家、倡导者和前 OpenAI 员工呼吁美国政府考虑人工智能法规。他们指出 OpenAI 至少需要解决这个缺陷。因担心公司方向而于 2 月份从 OpenAI 辞职的工程师 William Saunders 表示,如果 OpenAI 愿意优先解决这个问题,这个问题似乎是可以解决的。如果你把它放在那里很长一段时间,而人们对其功能过于自信并将其集成到所有其他系统中,那么你就会遇到麻烦。
虽然大多数开发人员都认为转录工具不可避免地会出现拼写错误或其他错误,但许多工程师和研究人员表示,他们从未见过其他人工智能驱动的转录工具像 Whisper 一样容易产生幻觉。
目前,该工具已集成到OpenAI旗舰聊天机器人ChatGPT的部分版本中,同时也是Oracle和微软云计算平台的内置产品,为全球数千家企业提供服务。它还可用于将文本转录和翻译成多种语言。
仅上个月,开源人工智能平台 HuggingFace 上最新版本的 Whisper 下载量就超过 420 万次。该平台的机器学习工程师 Sanchit Gandhi 表示,Whisper 是最流行的开源语音识别模型,并且内置于从呼叫中心到语音助手的各个领域。
康奈尔大学教授 Allison Koenecke 和弗吉尼亚大学教授 Mona Sloane 现在研究了他们从卡内基梅隆大学研究存储库 TalkBank 获得的数千个音频短片。他们发现,近 40% 的幻听是有害的或令人担忧的,因为说话者的原意可能被误解或歪曲。
研究人员不确定为什么 Whisper 和类似工具会产生幻觉,但软件开发人员表示,幻觉经常在暂停、背景声音或音乐播放时发生。 OpenAI此前在网上披露的信息中建议,不应在决策情况下使用Whisper,因为准确性上的缺陷可能会导致结果出现明显缺陷。
针对最新消息,OpenAI发言人回应称,OpenAI将在下次模型更新时添加相应的反馈机制。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。