Facebook AI的Demucs教AI以更人性化的方式聆听_鞍山信息港

Demucs是Facebook AI的一项新研究项目。它旨在将音轨分为不同的乐器或人声，类似于人类如何检测特定乐器并解决现有方法的问题。从长远来看，Demucs也可以应用于其他AI任务。

对于机器而言，音乐源分离可能是一项艰巨的任务，而对于人类而言，区分人声，低音或鼓音则更为容易。为了帮助完成此任务，Facebook AI研究科学家Alexandre Defossez开发了Demucs(音乐源的深层提取器)。

如著名的“鸡尾酒会效果”所述，人类可以在嘈杂的环境中进行特定的对话。分离声源的任务给机器带来了困难。让我们看看AI工具如何管理此任务以及Demucs与众不同的地方。

频谱图与波形

正如Defossez所指出的，最常见的是，AI通过分析频谱图来分离音乐源。尽管此方法非常适合在单个频率上谐振的仪器，但基于频谱图的方法也有其缺点。例如，萨克斯风和吉他频率可以相互抵消。

这就是Demucs发挥作用的地方-一种基于AI的波形模型，其设计原理类似于计算机视觉如何检测图像中的图案。“它会检测波形中的模式，然后添加更高比例的结构，” Defossez解释说。换句话说：“ Demucs可以重新创建它认为存在但混入其中的音频。”

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。