借助机器学习技术研究人员将单声道音频转为2.5D格式

Thinking IT音频 18-12-29 1350 0

德克萨斯大学奥斯汀分校，刚刚携手Facebook人工智能研究员，开发出了一套基于机器学习技术的“单声道音频转换”技术。其能够分析视频中场景，转换出更加令人感到震撼的“2.5D视觉立体声”。显然，这项技术很适合将普通单声道音频，更好地运用到虚拟现实（VR）头戴式、带来更出色的沉浸式体验。

人类之所以能感知到3D 空间的立体声，得益于双耳的独特结构。基于声音传播的时差，大脑才能够确定物体的距离和位置。这种3D 音频体验，可以通过模拟双耳的立体声设备来录制和复现。

遗憾的是，大多数音频都是单声道格式的（录制时就只使用了单个麦克风）。虽然日常生活中已经“够用”，但它并不适合VR 等追求沉浸式体验的应用场景。

有鉴于此，将单声道音频转换成双声道，就变得很有必要。好消息是，研究人员Ruohan Gao 和Kristen Grauman，已经找到了一种相当接近的方法。

该方法依赖于视频，在深度学习技术的加持下，通过分析画面中各个物体的空间位置，即可转换出更加立体的2.5D音频。

当然，这项方法也存在着一定的限制，尤其是存在一些让AI 无法理解的对象的时候。感兴趣的朋友，可以观看上面这段演示视频。

（文章来源：cnbeta）

转载声明：本站文章若无特别说明，皆为本站原创或首译，转载请注明来自：电音哦（www.chinamidi.cn），谢谢！^^