语音引擎 – 一种合成声音,与真实声音没有区别。

OpenAI 展示了 一项独特开发工作的第一个成果——语音引擎模型。该技术能够仅使用文本和 15 秒的录音来生成与原始说话者的声音相同的自然语音。这个小模型能够创造出情感丰富且真实的声音。

语音引擎的开发于 2022 年底开始。该模型已用于文本转语音 API 以及 ChatGPT 语音和朗读功能。然而,考虑到合成语音可能被滥用,OpenAI 对更广泛地采用该技术采取谨慎态度。该公司致力于发起有关合成声音的安全实施和社会适应新机遇的对话。

语音引擎的早期用途包括:

使用自然和情感的声音为文盲和儿童提供阅读帮助;
翻译内容(视频和播客)以扩大全球受众;
改善偏远地区基本服务的提供;
通过治疗和教育应用为患有影响言语的疾病的人提供支持;
患有突发性或退化性言语病症的患者的声音恢复。

OpenAI 强调了生成完美模仿人类声音的语音所带来的严重风险,尤其是在选举背景下。为了应对这些风险,该公司制定了安全措施,包括跟踪语音引擎产生的音频来源的水印以及主动监控技术使用情况。测试语音引擎的合作伙伴已同意一项使用政策,禁止未经同意冒充他人或实体。

该公司提出了一些措施,使社会能够更好地应对引人注目的生成模型带来的挑战,包括重新考虑基于语音的身份验证作为一种安全措施,以及制定政策来保护在人工智能中使用其他人的声音。 OpenAI 致力于继续与政策制定者、研究人员、开发人员和创意人员就合成声音的挑战和机遇进行对话,强调全球了解该技术方向的重要性。

文章原文链接:https://www.anquanke.com/post/id/295216