清华大学成立听觉智能研究中心,要解决可解释和鲁棒性问题

融合产业和多学科的新机构

郭一璞 发自 清华

量子位 报道 | 公众号 QbitAI

今天,清华大学人工智能研究院听觉智能研究中心成立了。

听觉和语音一直是AI领域研究和应用的重点,中国科学院院士、清华大学人工智能研究院院长张钹认为,在后深度学习时代,听觉智能应该成为AI领域重要的分支。

听觉智能中心研究什么?

清华大学郑方教授担任研究中心主任,他在现场介绍,听觉智能研究中心集中于三个目标:

1、揭示人类听觉的感知和认知机制;

2、建立听觉智能的计算理论与方法;

3、提出计算机感知与声音理解的技术和算法。

聚焦于可解释性 、鲁棒性、安全+智能三个问题,研究中心的研发方向包括:

1、声学场景的感知与理解;

2、语音中内容、声纹、情感等多元属性信息的识别与理解,不仅要识别说了什么,还要根据声纹识别出声音的主人,说话者的情绪;

3、听觉计算的鲁棒性,保证相关应用稳定;

4、人机语音智能交互,和机器说人话,智能音箱就是这方面离我们最近的应用。

研究中心将以核心技术为基础,产出产品和服务、形成知识产权、参与标准制定。

另外,研究中心还会进行多学科的交叉,与包括剑桥大学、佐治亚理工学院、中国人民大学、天津大学、新疆大学等在内的国内外多所高校进行合作;与微软、得意音通、联动优势、浦发银行、广电运通金融等企业进行校企合作。

张钹:为什么需要听觉智能研究中心?

中国科学院院士、清华大学人工智能研究院院长张钹介绍,听觉本来不是AI独立的领域,在AI兴起之前就有很长的历史,在人机交互、感知、语言处理等方面和AI有很大的交集。

进入深度学习时代后,深度学习完全改变了听觉处理的现状,使其真正走向实用,有了商业产品,这归功于统计学习、深度学习。

现在,我们进入后深度学习时代,语音处理与AI其他领域一样面临同样的问题:用深度学习建造的AI系统包括听觉系统都非常脆弱,容易受攻击,容易出错。在语音识别方面表现得很明显,即在安静的条件下可以达到很高识别率,在有干扰的情况下就遇到了很大问题。

清华大学解决了声纹处理的鲁棒性问题,但是随着攻击方式的变化,如果继续只采用概率统计的方法,恐怕漏洞依然存在。
因此,在后深度学习时代,听觉智能应该成为AI领域重要的分支。

听觉智能研究中心需要以可解释和鲁棒的AI理论与方法为核心,与产业融合,与其他学科融合,才能突破AI发展中存在的很多问题。

另外,在AI教育方面,张钹院士认为,AI本科培养主要还是靠计算机专业,AI是计算机科学技术的分支。需要重点加强的是研究生、高端人才的培养。另外,中低端AI人才也需要培养,但清华大学主要培养高端的AI发展骨干,希望听觉智能研究中心的成立能让AI人才培养推进一步。

版权所有,未经授权不得以任何形式转载及使用,违者必究。