谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

2018年4月15日 | By News | Filed in: News.

https://ift.tt/2vcModL

人类一个极为强大的能力,是能在一片有着许多人在说话的背景杂音中,精准地「过滤」掉其他人的声音,只留下自己对话的对象。过去一直认为电脑要获得这样的能力不容易,但谷歌的专家们取了个巧,利用深度学习结合脸部辨识,达到了相当好的效果。
简单来说,研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景,然后训练机器去辨识如何从场景中还原出单一的人声来,最后产生一个模型。以这个脸部与声线对应的模型为基础,喂给电脑真实世界的视频时,当脸部侦测到目标嘴巴在动,系统就会试图抓取音频,将相关的部份分离…

IT.数码

via Engadget 中国版 https://ift.tt/2ylYXnK

April 13, 2018 at 03:36PM


发表评论

电子邮件地址不会被公开。 必填项已用*标注