搜狗 AI 交互技术部总经理陈伟：未来 AI 语音交互产品将会走向多模态

时间: 2020-06-04 05:07:12

受限于人工同传或速记人员费用高、记忆力及翻译 / 速记速度有限等因素，搜狗 AI 录音笔逐渐出现在越来越多会议场景中，AI 录音笔可以将演讲者的语音实时转成文本，并且进行同步翻译，很大程度上取代了人工同传和速记人员，帮助人们实现了不同语言间的低成本交流。那么，这背后又有哪些智能语音技术作为支撑？在 AICon 大会召开前夕，InfoQ 有幸采访了搜狗 AI 交互技术部总经理陈伟，听他分享搜狗 AI 交互技术的发展历程及应用实践。

背景

随着深度学习技术的兴起，人们已经看到了 AI 在感知识别层面如语音、视觉等领域取得的惊人成果，AI 智能语音技术也正在快速走向实用。搜狗近年来一直在 AI 领域持续布局，语音识别在搜狗输入法的大规模应用也呈现出渐行渐好的趋势。

借此契机，陈伟于 2012 年 8 月加入搜狗，负责带领搜狗 AI 交互技术团队，围绕搜狗“自然交互 + 知识计算”的 AI 战略，重点布局搜狗多模态人机交互技术的研发和产品化工作，研究的领域覆盖了多模态人机交互系统的各项技术，同时重点研究如何结合感知和认知方向的技术打造出自然的人机交互体验，期间还带领团队研发了搜狗分身、机器同传、个性化合成、变声等前沿性的 AI 创新能力，目前研发的技术重点服务于搜狗的输入法、搜索、AI 硬件等核心产品，同时也在以搜狗 AI 开放平台的方式对外输出。

搜狗 AI 交互技术的发展历程

近年来，搜狗在智能语音交互上取得了一定成绩，在车载、智能家居、可穿戴移动设备上都有规模化落地。但在智能语音交互技术的推进过程中，搜狗也是在不断的尝试和探索中蜿蜒前行。

通常，语音录入和转写的准确率要依赖于真实场景而定，受限于噪声、口音、讲话方式等因素的影响，准确率会有一定的差异。但是目前搜狗在转写上已经具备了较强的鲁棒性，针对不同场景的识别效果波动性已经有明显减小。广义的语音识别不仅限于内容的识别，还包括了语音分析等核心技术，例如搜狗的同传 3.0 技术以“多模态”和“自主学习“为核心，加入视觉 (OCR) 和思维能力（知识图谱），让机器同传不仅会听，还首次具备了会看、能理解会推理的能力。

在采访中，陈伟表示，搜狗在智能语音交互技术的发展，主要分为以下几个阶段：

1、语音搜索阶段

语音搜索方便了用户在搜狗搜索上快捷的检索，早期识别准确率不够高，但是搜索可以返回多个检索结果，很大程度可以降低识别错误带来的影响。目前搜狗识别准确率已经达到较高的水平，搜狗搜索已经可以根据用户语音搜索请求直接给出答案，用户体验感有了较大提升。

2、语音输入阶段

搜狗语音输入能帮助用户更高效、快捷地输入内容，语音输入的最高输出效率目前能达到每分钟 300~400 个字，特别是伴随着数据、算法和算力的不断提升，语音输入识别准确率也得到了大幅提升，近几年，搜狗每年的识别字错误率都能保持 30% 以上的下降，语音输入的日 PV 已经达到 10 亿 +。但是，快速发展的背后也让搜狗发现通用的语音输入无法解决用户个性词的识别，比如通讯录、工作领域的词汇等，所以去年搜狗发布了个性化语音识别能力，能够基于用户在搜狗输入法的用户词库，实时优化语音识别效果，针对个性化词的识别错误率下降了 40%。

3、语音翻译阶段

语音翻译能够方便用户进行实时跨语言的交流，结合搜狗在语音识别、机器翻译、语音合成领域的技术积累，2016 年搜狗推出了首款商用 AI 同传系统—搜狗同传，能够实时查看或收听同传译文，目前已经支持了大会演讲、线上直播、远程会议等多个场景，同时在输入法、录音笔等产品上也上线了同传的功能。此外，搜狗还推出了搜狗翻译机，这是业内较早地将语音翻译能力进行离线化的尝试，不联网也可以实时进行跨语言交流。产品背后，是搜狗智能语音团队在模型压缩、低算力推理、知识提纯等方面的不断探索。

4、语音交互阶段

2011 年的 Siri 和 2014 年的 Ehco 有效推动了语音助手类产品的快速成熟，也带动了国内一大批语音交互类产品的发布。在通用语音交互上的研发过程中，研究团队逐渐发现目前智能语音交互的产品，核心在于对话能力仍无法满足用户的预期，无法做到自然地对话。因此，搜狗 AI 团队的研究重点主要放在了面向于垂直刚需场景的任务型对话研究上，语音交互侧重于车载、智能家居、可穿戴移动设备等领域，提供全双工的语音交互能力，并在 2016 年发布了自有的语音交互 VUI- 知音 OS。

5、多模态交互阶段

搜狗的人机交互主张是自然交互，如何做到自然交互，搜狗认为这一问题的答案，一定是多模态交互。不局限于语音，而是语言、视觉等多种模态信息相结合，共同提升交互体验。因此，搜狗在多模态感知、多模态人机交互、多模态表达等方向都在持续研发，特别是其发布的搜狗分身，实现了以数字人的形象和人进行对话和交互，形成了搜狗在交互领域最具差异化和代表性的交互产品。

结语

据陈伟介绍，未来 AI 语音交互产品将会走向多模态，搜狗同传也不例外。就搜狗同传产品而言，在经过多重“感官”的调用后，搜狗同传不仅可以做到翻译更加快速和准确，而且会更加自然、专业、智能。数据显示，在“听”“看”“思考”三位一体的作用下，搜狗多模态同传系统针对 PPT 内容的识别准确率提升 21.7%，翻译正确率提升 40.3％。

嘉宾介绍：

陈伟，搜狗 AI 交互技术部总经理，主要负责搜狗多模态人机交互技术的研发和产品化工作，研究方向涵盖语音、图像、自然语言等多模态领域，带领团队实现了行业中最前沿的人机交互技术，并重点推动了搜狗人机交互核心能力在输入法、AI 录音笔、AI 翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的 AI 创新产品，不断带领团队探索人机交互产品和技术的未来。