在座舱里，我们到底在「chat」什么？

2023-07-13

媒体报道

在座舱里，我们到底在「chat」什么？

2020-07-13 GeekCar极客汽车米其林

盘点一下今年上半年的「当红炸子鸡」，非 ChatGPT 模式莫属。OpenAI 和它的 GPT 不仅凭一己之力将 AI 再度推上风口，也带起了大模型之战。如今还没摩拳擦掌打造自家大模型的科技公司，在这轮 AI 大战里已经可以宣告出局了；还没有计划将大模型引入汽车的车企，动作似乎也有点慢了。

如果说去年大火的「元宇宙」离汽车多少有点远，那AI 大模型跟汽车的距离就近多了。毕竟「ChatGPT」的「chat」就与如今座舱里离不开的语音交互密切相关。语音交互也因此成了大模型上车的第一站，比如，之前 GeekCar 抢先体验的文心大模型上车，理想宣布自研的 MindGPT，商汤在上海车展期间展示的 SenseChat 中文语言模型，而奔驰更是直接在北美开启了 ChatGPT 上车测试。各家在探索的同时，更好奇大模型、生成式 AI 究竟能给语音交互和智能座舱带来什么改变？

前不久，GeekCar 有幸采访到全球车载语音巨头赛轮思首席执行官 Stefan Ortmanns 博士。赛轮思技术应用在全球汽车占比约 53% ，这意味着每两辆新生产的汽车中就有一辆是使用它的技术。值得一提的是，在北美开启 ChatGPT 测试的奔驰 MBUX 系统，早已采用了 Cerence JustTalk 车载助理功能。在 Stefan Ortmanns 博士看来，目前的车载语音正处在「从典型的出行助理解决方案到沉浸式伴侣体验」的过程中，其中离不开 AI 的驱动。

赛轮思首席执行官 Stefan Ortmanns 博士

目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的？在这个过程中大模型究竟能带来哪些想象力？我们一起来看看。

车载语音1.0时代：

任务型助手的升级

对于很多人来说，目前语音交互最常见的两个场景，一个是在车里，另一个可能就是智能音箱了。

眼看着座舱智能语音的在新车中的渗透率高达 70%以上，在车里用语音交互被越来越多人接受，相比之下，智能音箱的处境就没那么乐观了，更多地沦为了家里哄孩子的工具，或者是控制智能家居的中台。其中关键一因素就是：边界。

如果把智能语音划分成任务型和闲聊型，目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境，容易把控的使用场景，让车载语音助手可以针对高频需求优化训练，主打一个「有求必应」：无论是打开车窗、空调，还是设置导航播、放视频，都建立在明确的指令下。给出指令——解决问题，一来一回，正好满足驾驶场景的需求。

因此，现阶段车载语音交互更多关注的是如何给任务型助手的升级：一方面是提高识别和响应速度；另一方面就是优化体验，比如类似的 oneshot、多轮对话能力，前面提到的 Cerence JustTalk 全时免唤醒对话功能，都建立在 AI 对全栈式技术的优化基础上，提高语音交互的准确率的同时，也提高了交互的效率。

作为用户来说，这种优化更直接的感受就是车载语音更加务实了：识别准确率提升，能摆脱冗余的唤醒词，不必再记住特定的指令，模糊指令也能识别……

从「出行助理解决方案」这个工具属性来看，体验提升了不少。不过对于智能语音来说，目标显然不止于此。

车载语音2.0时代：

AI驱动更主动、更像自然人的交互

尽管很多时候大家会说「谁开车时会需要闲聊啊？这不是耽误开车么？」但是更具有主动感知能力和自然交互能力的交互体验，一直是不可阻挡的趋势。

在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能，甚至不少车企打出的「情感交互」牌。

如果说情感交互、主动式交互听起来太抽象，那用Stefan Ortmanns博士的话来说就是：「从出行助理解决方案向沉浸式伴侣体验的过程，中间阶段就是虚拟副驾驶（Co-Pilot）阶段，这种趋势意味着能带来大量的信息。」

也就是从任务型助手向沉浸式交互发展，意味着更多信息的交互：系统获取更多的信息，处理更多信息，以及向用户传递更多信息。

现阶段是怎么做的呢？最常见的就是多模态融合。通过将语音和摄像头等实时信息融合，或者与以往的数据库融合，给出主动式的服务。

比如，赛轮思推出的 Cerence Co-Pilot 功能，就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候，系统能自动打开车窗；当监测到马上要到家时，提前询问是否打开家里的空调；当汽车电量不足时，主动提示附近充电桩导航；甚至引入生物识别引擎 Voice Biometrics，在座舱里实现声纹识别等多模态生物识别功能。

说起来容易，但实际应用中并不容易。以往，座舱内摄像头+语音交互融合的DMS 系统，就曾在不少车型上因为误判、误提醒成为麻烦制造机；为了解决 DMS 误提醒问题，语音数据与视觉数据融合需要处理 10 亿级别的图片数量。

因此，要让主动式交互更主动、更自然，既需要多模态融合能力，也要庞大的数据处理能力，以及对于自然语言和场景举一反三的泛化能力，避免遇到新状况时「当机」。

「庞大的数据训练」、「高效的自然语言处理能力」、「低样本、零样本的泛化能力」、「多模态模型」，如果你最近关注 ChatGPT 的进展，对上边这几个词肯定不陌生。可以说正是因为这些特点，GPT 成为了颠覆行业的存在。而这些特点，与语音交互未来发展需要的能力契合。

也就是说有了 GPT 这样的生成式 AI 的助力，未来座舱内多模态交互不会是各司其职，能融合得更丝滑，语音交互的闲聊也不再只是尬聊，那些智能语音给我们画过的「饼」，终于找到了造饼的工具。

大模型上车，没那么容易

尽管越来越多的车企宣布大模型上车计划，甚至已经有车企开始测试，不过大模型上车并不容易。

ChatGPT 可以给我们提供很多信息，但并非无所不能。比如当我问 ChatGPT 怎样开雨刮器，它可能只会给你提供一个通用的结果；如果我的车型比较创新，取消了传统的物理按键，ChatGPT 大概束手无策。

针对这种情况，赛轮思利用生成式 AI 和大语言模型，针对车载场景做出了成果。

比如， Car Knowledge 利用自研的生成式 AI，将主机厂提供的车辆信息、用户手册、传感器信息直接导入大型语言模型。这样驾驶员只需要简单描述自己的需求，甚至只是输入几个字就能找到专门针对这款车型的信息。

对于一个曾经经历过「由于车内没有物理按键，也无法用语音打开油箱盖，不得不在加油站翻用户手册」的人来说，在座舱里创新开关越来越多的今天，深感这个功能的实用。

当然，这只是生成式 AI 和大语言模型上车的小试牛刀而已。另一个 Cerence Browse 更符合我们对智能语音无所不知的闲聊属性的印象，赛轮思将互联网搜索引擎与车载助理集成，通过语音 AI 来解答的各类提问，主打一个陪伴。

前不久，奇绩创坛创始人、微软前全球执行副总裁陆奇在演讲中说，「未来世界有各种模型组成，每个人都将有多有不同领域的副驾驶（CoPilot），等 CoPilot 能力越来越强，就会变成一个正驾驶员（AutoPilot），再往下将拥有一个一个 Pilot team。」

目前，赛轮思基于生成式 AI 和大语言模型上车的产品，未尝不是在打造一个个不同领域的 CoPilot，并通过应用培养它们逐渐变强大，最终营造一个沉浸式的座舱交互体验。

「要创造一个真正的沉浸式车载体验，意味着我们需要超越对话式人工智能。」对于未来沉浸式车载体验的畅想，Stefan Ortmanns 博士这样回答。

最后

很多人说生成式 AI 的突破，让人工智能进入了 iPhone 时代。对于语音交互和智能座舱来说又何尝不是呢？

未来的智能座舱注定不会是触屏、手势、语音、视觉单一交互方式的单打独斗，而是彼此的相互融合，语音交互更像是一个交互中台的存在。所以大模型和生成式 AI 能为语音交互带来多少想象力，就意味着能为智能座舱带来多大想象力。

不论是对于我们，还是对于赛轮思这样语音交互解决方案提供者来说，在车里我们能「聊」的会越来越多。

发现更多关于
未来出行体验

注册

了解更多

新闻稿

赛轮思AI与Arm携手合作，在边缘侧实现增强的大语言模型（LLM）能力

新闻稿

赛轮思AI与Arm携手合作，在边缘侧实现增强的大语言模型（LLM）能力

了解更多

新闻稿

赛轮思AI以创新技术助力德国顶级车企打造全新电动轿车智能车载体验

了解更多

新闻稿

赛轮思AI以创新技术助力德国顶级车企打造全新电动轿车智能车载体验

了解更多

新闻稿

马恒达（Mahindra）选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能

新闻稿

马恒达（Mahindra）选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能

了解更多

在座舱里，我们到底在「chat」什么？

发现更多关于 未来出行体验

新闻稿

赛轮思AI与Arm携手合作，在边缘侧实现增强的大语言模型（LLM）能力

新闻稿

赛轮思AI与Arm携手合作，在边缘侧实现增强的大语言模型（LLM）能力

新闻稿

赛轮思AI以创新技术助力德国顶级车企打造全新电动轿车智能车载体验

新闻稿

赛轮思AI以创新技术助力德国顶级车企打造全新电动轿车智能车载体验

新闻稿

马恒达（Mahindra）选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能

新闻稿

马恒达（Mahindra）选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能

发现更多关于
未来出行体验