利用语音和语言附带信息，实现移情交互和增强自动驾驶人车信任

2023-03-24

微信文章

利用语音和语言附带信息，实现移情交互和增强自动驾驶人车信任

原创 Cerence China 赛轮思 3月24日

今天的数字语音助理已经变得无比强大，可以帮助完成各种各样的任务，从简单的指令执行到回答各种广泛的问题。随着这些助理变得更加智能，与它们的互动将更加自然和像真人一样富有情感。在自动驾驶逐渐走向成熟的过程中，HMI如何与人建立起信任关系就变得至关重要。

自动驾驶是汽车行业的大势所趋，并为驾驶者和乘客更好地利用出行时间带来更多的可能性。但要成功地在市场上推出全自动驾驶功能，一个核心前提是用户对该技术的接受。其中两个决定性因素是他们对系统安全的充分信任，以及突出的附加值或良好的用户体验。作为EMMI项目的一部分，通过对移情人机界面的系统化构思、开发和评估，这两个核心要素得到了解决。

EMMI 项目是由来自业界和大学的科研专家组成，他们一起研究自动驾驶中人与机器之间的互动，目标是实现移情的人机互动，为自动驾驶汽车的用户提供最好的支持，以建立对其车辆的信任。

赛轮思负责领导这个项目中基于语音和声音界面的开发，通过与强大的合作伙伴团队合作，最大程度地结合和发挥他们在视觉驾驶监控、3D化身、显示技术和认知心理学方面的特长和专业知识。

作为EMMI项目的一部分，赛轮思创建了一个控制中心，以统筹由其提供的一系列软件组件。Cerence Control Center（CCC）具备以下五个关键功能：

语音转换成文字，自动语音识别（ASR）
分析和诠释所识别的词语，自然语言理解（NLU）
伴随语言的信息和用户情绪状态识别和诠释（EMO）
创建和控制与用户的对话（DIALOG MANAGER）
语音合成（TTS）

该图显示了各个组件的互动，并阐明了提供一个富情感的数字助理所需的各个步骤。

为了连接各个组件，并使信息在项目伙伴之间可以访问和交换，必须定义和实施一个通信接口。通过这个接口， Charamel、DFKI和CanControls 等合作伙伴可以检索系统的中间结果并独立处理。EMMI项目中的每一个组件都使用相同的通信接口，从而使组件和合作伙伴之间能够畅顺沟通。

自动语音识别和自然语言理解(ASR & NLU)

第一个关键功能是识别用户的说话内容。这一功能被称为语音识别，或简称为ASR（自动语音识别）。CCC中的语音识别组件从麦克风拾取音频信号，提取语音并将其转换为文本。为此，在后台使用特定的语言模型。

CCC集成语音识别功能需要麦克风设置保持启动的状态。用户可以通过任何唤醒词（WuW）来启动对话。因此，系统会持续聆听被定义为WuW的短语，然后诠释随后输入系统的说话。此外，持续倾听对于识别用户说话情绪很重要。因此，有可能从接收到的音频信号中推断出情绪的状态，即使没有说出语音指令。

在第二步，语音识别的结果被传递给NLU模块。该模块对说话内容进行分析，并从文本中提取语义表示。例如，填充词会被过滤省略，指令的释义被结合到一个用户核心意图上。例如，“请开车送我到科隆”和 “要导航到科隆”的指令可以统一为一个“意图”。这使得进一步的处理更加容易，因为不再需要注意不同的措辞，使用用户的意图即可。

伴随语言的信息和用户情绪状态（EMO）识别和诠释

CCC对语言对话附带的用户情绪状态信息提供了基于语音的分析。在后台，各种语音特征与经过专门训练的、基于概率的模型进行比较，以便不断对当前状态作出判断。这些数值不仅在CCC内可用，而且还可以通过EMMI websocket接口进行检索，并根据需要将信息传递给其他系统。

创建和控制与用户的对话（DIALOG MANAGER）

为了实现与用户移情互动并向用户提供所需的信息，需要一个对话管理器（Dialog Manager）。它接收NLU组件认可的 “意图”，并根据这些意图决定与用户的对话应该如何继续。这些选项可以通过集成在CCC中的对话管理器轻松输入和扩展。它不仅支持直接回应，而且还支持更复杂的子对话，并能通过网络接口控制任何连接的系统。例如，可以打开车窗，让新鲜空气进入车内，或者调整照明气氛，以创造出使驾驶者舒缓的效果。

因此，对话管理器构成了智能对话的基础，也是所有其他连接系统的接口，它们既向对话管理器提供数据，又执行用户要求的行动。

语音合成，文本到语音（TTS）

在文本到语音组件中，Cerence TTS引擎可以将要输出的单词或句子转换为计算机合成的语音。还可以根据用户的喜好来调整合成语音的音量、速度、音调和音色。这一点很重要，因为音调特征对数字对话伙伴（digital dialog partner）的感知共鸣有很大影响。此外，合成语言可以德语和英语生成。

在与联盟伙伴Charamel的合作中，计算机生成音频文件的创建是作为一项服务提供，这意味着它可以很容易地被查询并返回结果。不仅可以生成纯音频信号，还能够生成Lipsync唇同步信息，这样数字化身便可以改变唇部动作与语音同步。

CERENCE CONTROL CENTER -- 用于移情式人机交互的语音界面

语音交互系统已经存在了相当长的一段时间，并且被证明是一种非常成功的人机界面。它们是以自然和人性化的方式与复杂的技术系统进行互动的好方法，但仍面对一些挑战需要解决。

其中一个问题是语音输出和对话中的情感识别问题，这对用户与系统建立信任有很大影响。赛轮思正在创建深度神经网络来识别口语，检测情绪，并作出相关的响应。

CCC是一个语音交互系统，使我们和我们的合作伙伴能够以移情的方式与机器互动。我们的合作伙伴利用它作为重要构件来创建和改进他们的系统。我们大家共同的目标是与用户产生相互理解，从而建立信任，使互动变得自然和直观。

要了解更多关于我们与EMMI的合作，请访问https://www.emmi-projekt.de/newsblog-en.html。