-
赛轮思宣布前福特高管Marcy Klevorn加入董事会
Cerence Inc.(NASDAQ: CRNC),AI for a world in motion,今日宣布Marcy Klevorn被任命为独立非执行董事,即日起生效。
2023-06-01
-
Cerence Ride为隆鑫全球摩托车品牌带来对话式AI体验
Cerence Inc.(NASDAQ: CRNC),AI for a world in motion,今日宣布中国著名摩托车生产企业隆鑫选择Cerence Ride,为其高端摩托车产品系列实现AI驱动的语音交互。
2023-05-16
-
赛轮思任命科技创新先锋 Iqbal Arshad 为首席技术官(CTO)
Cerence Inc.(NASDAQ: CRNC),AI for a world in motion,今日宣布任命资深科技领域先锋Iqbal Arshad为新任首席技术官(CTO)。在这个职位上,Iqbal Arshad将领导赛轮思全球技术、工程和产品开发部门,负责公司的技术愿景制定。
2023-05-02
-
赛轮思利用生成式AI(Generative AI)以增强汽车制造商及其车主的车载体验
Cerence Inc.(NASDAQ: CRNC),AI for a world in motion,今日宣布全面升级的Cerence Car Knowledge ,将利用生成式AI(Generative AI)提升助理的智能水平,为驾驶者提供实时信息和支持。
2023-04-24
微信文章
利用语音和语言附带信息,实现移情交互和增强自动驾驶人车信任
原创 Cerence China 赛轮思 3月24日
今天的数字语音助理已经变得无比强大,可以帮助完成各种各样的任务,从简单的指令执行到回答各种广泛的问题。随着这些助理变得更加智能,与它们的互动将更加自然和像真人一样富有情感。在自动驾驶逐渐走向成熟的过程中,HMI如何与人建立起信任关系就变得至关重要。
自动驾驶是汽车行业的大势所趋,并为驾驶者和乘客更好地利用出行时间带来更多的可能性。但要成功地在市场上推出全自动驾驶功能,一个核心前提是用户对该技术的接受。其中两个决定性因素是他们对系统安全的充分信任,以及突出的附加值或良好的用户体验。作为EMMI项目的一部分,通过对移情人机界面的系统化构思、开发和评估,这两个核心要素得到了解决。
EMMI 项目是由来自业界和大学的科研专家组成,他们一起研究自动驾驶中人与机器之间的互动,目标是实现移情的人机互动,为自动驾驶汽车的用户提供最好的支持,以建立对其车辆的信任。
赛轮思负责领导这个项目中基于语音和声音界面的开发,通过与强大的合作伙伴团队合作,最大程度地结合和发挥他们在视觉驾驶监控、3D化身、显示技术和认知心理学方面的特长和专业知识。
作为EMMI项目的一部分,赛轮思创建了一个控制中心,以统筹由其提供的一系列软件组件。Cerence Control Center(CCC)具备以下五个关键功能:
-
语音转换成文字,自动语音识别(ASR)
-
分析和诠释所识别的词语,自然语言理解(NLU)
-
伴随语言的信息和用户情绪状态识别和诠释(EMO)
-
创建和控制与用户的对话(DIALOG MANAGER)
-
语音合成(TTS)
该图显示了各个组件的互动,并阐明了提供一个富情感的数字助理所需的各个步骤。
为了连接各个组件,并使信息在项目伙伴之间可以访问和交换,必须定义和实施一个通信接口。通过这个接口, Charamel、DFKI和CanControls 等合作伙伴可以检索系统的中间结果并独立处理。EMMI项目中的每一个组件都使用相同的通信接口,从而使组件和合作伙伴之间能够畅顺沟通。
自动语音识别和自然语言理解(ASR & NLU)
第一个关键功能是识别用户的说话内容。这一功能被称为语音识别,或简称为ASR(自动语音识别)。CCC中的语音识别组件从麦克风拾取音频信号,提取语音并将其转换为文本。为此,在后台使用特定的语言模型。
CCC集成语音识别功能需要麦克风设置保持启动的状态。用户可以通过任何唤醒词(WuW)来启动对话。因此,系统会持续聆听被定义为WuW的短语,然后诠释随后输入系统的说话。此外,持续倾听对于识别用户说话情绪很重要。因此,有可能从接收到的音频信号中推断出情绪的状态,即使没有说出语音指令。
在第二步,语音识别的结果被传递给NLU模块。该模块对说话内容进行分析,并从文本中提取语义表示。例如,填充词会被过滤省略,指令的释义被结合到一个用户核心意图上。例如,“请开车送我到科隆”和 “要导航到科隆”的指令可以统一为一个“意图”。这使得进一步的处理更加容易,因为不再需要注意不同的措辞,使用用户的意图即可。
伴随语言的信息和用户情绪状态(EMO)识别和诠释
CCC对语言对话附带的用户情绪状态信息提供了基于语音的分析。在后台,各种语音特征与经过专门训练的、基于概率的模型进行比较,以便不断对当前状态作出判断。这些数值不仅在CCC内可用,而且还可以通过EMMI websocket接口进行检索,并根据需要将信息传递给其他系统。
创建和控制与用户的对话(DIALOG MANAGER)
为了实现与用户移情互动并向用户提供所需的信息,需要一个对话管理器(Dialog Manager)。它接收NLU组件认可的 “意图”,并根据这些意图决定与用户的对话应该如何继续。这些选项可以通过集成在CCC中的对话管理器轻松输入和扩展。它不仅支持直接回应,而且还支持更复杂的子对话,并能通过网络接口控制任何连接的系统。例如,可以打开车窗,让新鲜空气进入车内,或者调整照明气氛,以创造出使驾驶者舒缓的效果。
因此,对话管理器构成了智能对话的基础,也是所有其他连接系统的接口,它们既向对话管理器提供数据,又执行用户要求的行动。
语音合成,文本到语音(TTS)
在文本到语音组件中,Cerence TTS引擎可以将要输出的单词或句子转换为计算机合成的语音。还可以根据用户的喜好来调整合成语音的音量、速度、音调和音色。这一点很重要,因为音调特征对数字对话伙伴(digital dialog partner)的感知共鸣有很大影响。此外,合成语言可以德语和英语生成。
在与联盟伙伴Charamel的合作中,计算机生成音频文件的创建是作为一项服务提供,这意味着它可以很容易地被查询并返回结果。不仅可以生成纯音频信号,还能够生成Lipsync唇同步信息,这样数字化身便可以改变唇部动作与语音同步。
CERENCE CONTROL CENTER -- 用于移情式人机交互的语音界面
语音交互系统已经存在了相当长的一段时间,并且被证明是一种非常成功的人机界面。它们是以自然和人性化的方式与复杂的技术系统进行互动的好方法,但仍面对一些挑战需要解决。
其中一个问题是语音输出和对话中的情感识别问题,这对用户与系统建立信任有很大影响。赛轮思正在创建深度神经网络来识别口语,检测情绪,并作出相关的响应。
CCC是一个语音交互系统,使我们和我们的合作伙伴能够以移情的方式与机器互动。我们的合作伙伴利用它作为重要构件来创建和改进他们的系统。我们大家共同的目标是与用户产生相互理解,从而建立信任,使互动变得自然和直观。
要了解更多关于我们与EMMI的合作,请访问https://www.emmi-projekt.de/newsblog-en.html。
相关文章
移动世界的最新新闻和观点洞察,了解最新资讯。