使用 Adob​​e 的免费 AI 工具让嘈杂的录音听起来像专业音频

最近,Adobe 发布了一款免费的 AI 驱动的音频处理工具,可以通过消除背景噪音并使声音听起来更强劲来增强一些质量较差的录音。当它工作时,结果听起来就像是在专业的录音棚里用高质量麦克风录制的。

这个名为 Enhance Speech 的新工具起源于一个名为 Project Shasta 的人工智能研究项目。最近,Adobe 将Project Shasta更名为Adob​​e Podcast

使用 Enhance Speech 是免费的,但它需要创建一个 Adob​​e 帐户,并且最适合桌面 Web 浏览器。注册后,用户可以上传长达一小时或大小为 1GB 的 MP3 或 WAV 文件。几分钟后,您可以在浏览器中收听结果或下载经过清理的音频。

在我们对该服务的测试中,Enhance Speech 在包含没有串音或过多噪音的语音的音频中效果最佳。例如,我们从 10 英尺外的人的 iMac 内置麦克风录制音频,包括附近的风扇噪音,并且生成的音频(经过 Enhance Speech 处理后)听起来像是在无噪音的近距离录制的专业麦克风的工作室。

Enhance Speech 允许上传最大 1GB 或一小时的 MP3 或 WAV 文件。
增强语音允许上传最大 1GB 或一小时的 MP3 或 WAV 文件。
土坯

它是如何工作的?Adobe 没有提供任何细节,但我们怀疑该公司在许多(可能数千)小时的干净和嘈杂的音频上训练了一个深度学习模型。然后该模型可以“学习”挑选出人类语音频率并合成与源准确匹配的传真。在 Adob​​e 提供更多技术细节之前,这只是猜测,我们已联系该公司征求意见。

就此而言,一些 Hacker News 评论员报告了幻觉结果——人工智能误解输入音频的幻觉输出等意外输出——来自极度嘈杂的音频(例如在瀑布旁录制的语音)或来自非英语语言源,这表明Enhance Speech 不仅仅是一种传统的降噪技术。

Enhance Speech 并不是第一个提供这种由 AI 驱动的降噪功能的工具。例如,一个名为mayavoz的开源包和一个名为Audo Studio的商业服务做类似的事情。

值得注意的是,Enhance Speech 是 Adob​​e 的一大组人工智能播客工具的一部分,包括Mic Check 工具(目前也免费提供)和基于转录的音频编辑工具,该工具仍在接受邀请测试版。