• AI解决方案
    • 对话式与生成式AI
    • 音频与通信AI
    • 邻近市场
    • 专业服务
    • 平台开发者
  • 新闻
  • 投资者
  • 招聘
  • 首页
  • 关于赛轮思AI
    • 关于赛轮思AI
    • 可持续发展

利用语音和语言附带信息,实现移情交互和增强自动驾驶人车信任

首页   >   新闻   >

2023-03-24

微信文章          

         

利用语音和语言附带信息,实现移情交互和增强自动驾驶人车信任

                                    

原创 Cerence China 赛轮思 3月24日  

 

今天的数字语音助理已经变得无比强大,可以帮助完成各种各样的任务,从简单的指令执行到回答各种广泛的问题。随着这些助理变得更加智能,与它们的互动将更加自然和像真人一样富有情感。在自动驾驶逐渐走向成熟的过程中,HMI如何与人建立起信任关系就变得至关重要。

 

 

自动驾驶是汽车行业的大势所趋,并为驾驶者和乘客更好地利用出行时间带来更多的可能性。但要成功地在市场上推出全自动驾驶功能,一个核心前提是用户对该技术的接受。其中两个决定性因素是他们对系统安全的充分信任,以及突出的附加值或良好的用户体验。作为EMMI项目的一部分,通过对移情人机界面的系统化构思、开发和评估,这两个核心要素得到了解决。 

 

EMMI 项目是由来自业界和大学的科研专家组成,他们一起研究自动驾驶中人与机器之间的互动,目标是实现移情的人机互动,为自动驾驶汽车的用户提供最好的支持,以建立对其车辆的信任。

 

赛轮思负责领导这个项目中基于语音和声音界面的开发,通过与强大的合作伙伴团队合作,最大程度地结合和发挥他们在视觉驾驶监控、3D化身、显示技术和认知心理学方面的特长和专业知识。

 

作为EMMI项目的一部分,赛轮思创建了一个控制中心,以统筹由其提供的一系列软件组件。Cerence Control Center(CCC)具备以下五个关键功能:

 

  • 语音转换成文字,自动语音识别(ASR)

  • 分析和诠释所识别的词语,自然语言理解(NLU)

  • 伴随语言的信息和用户情绪状态识别和诠释(EMO)

  • 创建和控制与用户的对话(DIALOG MANAGER)

  • 语音合成(TTS)

 

该图显示了各个组件的互动,并阐明了提供一个富情感的数字助理所需的各个步骤。

 

为了连接各个组件,并使信息在项目伙伴之间可以访问和交换,必须定义和实施一个通信接口。通过这个接口, Charamel、DFKI和CanControls 等合作伙伴可以检索系统的中间结果并独立处理。EMMI项目中的每一个组件都使用相同的通信接口,从而使组件和合作伙伴之间能够畅顺沟通。

 

自动语音识别和自然语言理解(ASR & NLU)

第一个关键功能是识别用户的说话内容。这一功能被称为语音识别,或简称为ASR(自动语音识别)。CCC中的语音识别组件从麦克风拾取音频信号,提取语音并将其转换为文本。为此,在后台使用特定的语言模型。

 

CCC集成语音识别功能需要麦克风设置保持启动的状态。用户可以通过任何唤醒词(WuW)来启动对话。因此,系统会持续聆听被定义为WuW的短语,然后诠释随后输入系统的说话。此外,持续倾听对于识别用户说话情绪很重要。因此,有可能从接收到的音频信号中推断出情绪的状态,即使没有说出语音指令。

 

在第二步,语音识别的结果被传递给NLU模块。该模块对说话内容进行分析,并从文本中提取语义表示。例如,填充词会被过滤省略,指令的释义被结合到一个用户核心意图上。例如,“请开车送我到科隆”和 “要导航到科隆”的指令可以统一为一个“意图”。这使得进一步的处理更加容易,因为不再需要注意不同的措辞,使用用户的意图即可。

 

伴随语言的信息和用户情绪状态(EMO)识别和诠释

CCC对语言对话附带的用户情绪状态信息提供了基于语音的分析。在后台,各种语音特征与经过专门训练的、基于概率的模型进行比较,以便不断对当前状态作出判断。这些数值不仅在CCC内可用,而且还可以通过EMMI websocket接口进行检索,并根据需要将信息传递给其他系统。

 

创建和控制与用户的对话(DIALOG MANAGER)

为了实现与用户移情互动并向用户提供所需的信息,需要一个对话管理器(Dialog Manager)。它接收NLU组件认可的 “意图”,并根据这些意图决定与用户的对话应该如何继续。这些选项可以通过集成在CCC中的对话管理器轻松输入和扩展。它不仅支持直接回应,而且还支持更复杂的子对话,并能通过网络接口控制任何连接的系统。例如,可以打开车窗,让新鲜空气进入车内,或者调整照明气氛,以创造出使驾驶者舒缓的效果。

 

因此,对话管理器构成了智能对话的基础,也是所有其他连接系统的接口,它们既向对话管理器提供数据,又执行用户要求的行动。

 

语音合成,文本到语音(TTS)

在文本到语音组件中,Cerence TTS引擎可以将要输出的单词或句子转换为计算机合成的语音。还可以根据用户的喜好来调整合成语音的音量、速度、音调和音色。这一点很重要,因为音调特征对数字对话伙伴(digital dialog partner)的感知共鸣有很大影响。此外,合成语言可以德语和英语生成。

 

在与联盟伙伴Charamel的合作中,计算机生成音频文件的创建是作为一项服务提供,这意味着它可以很容易地被查询并返回结果。不仅可以生成纯音频信号,还能够生成Lipsync唇同步信息,这样数字化身便可以改变唇部动作与语音同步。

 

CERENCE CONTROL CENTER  -- 用于移情式人机交互的语音界面

语音交互系统已经存在了相当长的一段时间,并且被证明是一种非常成功的人机界面。它们是以自然和人性化的方式与复杂的技术系统进行互动的好方法,但仍面对一些挑战需要解决。

 

其中一个问题是语音输出和对话中的情感识别问题,这对用户与系统建立信任有很大影响。赛轮思正在创建深度神经网络来识别口语,检测情绪,并作出相关的响应。

 

CCC是一个语音交互系统,使我们和我们的合作伙伴能够以移情的方式与机器互动。我们的合作伙伴利用它作为重要构件来创建和改进他们的系统。我们大家共同的目标是与用户产生相互理解,从而建立信任,使互动变得自然和直观。

 

要了解更多关于我们与EMMI的合作,请访问https://www.emmi-projekt.de/newsblog-en.html。

 

进入微信链接

发现更多关于
未来
出行体验

注册

相关文章

新闻稿

 

赛轮思AI荣获哈曼“最佳技术奖”

了解更多

新闻稿

 

赛轮思AI荣获哈曼“最佳技术奖”

了解更多

查看所有新闻稿

新闻稿

 

2025上海车展:赛轮思AI携手行业领军企业展示xUI——混合式、智能体化的AI助理平台

了解更多

新闻稿

 

2025上海车展:赛轮思AI携手行业领军企业展示xUI——混合式、智能体化的AI助理平台

了解更多

新闻稿

 

赛轮思AI与联发科合作推出基于英伟达技术的端侧多模态语言模型

了解更多

新闻稿

 

赛轮思AI与联发科合作推出基于英伟达技术的端侧多模态语言模型

了解更多

  • 首页 首页
  • AI解决方案 AI解决方案
    • 对话式与生成式AI
    • 音频与通信AI
    • 邻近市场
    • 专业服务
    • 平台开发者
  • 新闻 新闻
  • 投资者 投资者
  • 招聘 招聘
  • 关于赛轮思AI 关于赛轮思AI
    • 关于赛轮思AI
    • 可持续发展
使用条款
隐私声明

公安备案号 31011502010256

版权所有© 赛轮思通讯科技公司官网

赛轮思AI微信公众号

联系我们

赛轮思AI微信视频号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6