媒体报道
在座舱里,我们到底在「chat」什么?
2020-07-13 GeekCar极客汽车 米其林
盘点一下今年上半年的「当红炸子鸡」,非 ChatGPT 模式莫属。OpenAI 和它的 GPT 不仅凭一己之力将 AI 再度推上风口,也带起了大模型之战。如今还没摩拳擦掌打造自家大模型的科技公司,在这轮 AI 大战里已经可以宣告出局了;还没有计划将大模型引入汽车的车企,动作似乎也有点慢了。
如果说去年大火的「元宇宙」离汽车多少有点远,那AI 大模型跟汽车的距离就近多了。毕竟「ChatGPT」的「chat」就与如今座舱里离不开的语音交互密切相关。语音交互也因此成了大模型上车的第一站,比如,之前 GeekCar 抢先体验的文心大模型上车,理想宣布自研的 MindGPT,商汤在上海车展期间展示的 SenseChat 中文语言模型,而奔驰更是直接在北美开启了 ChatGPT 上车测试。各家在探索的同时,更好奇大模型、生成式 AI 究竟能给语音交互和智能座舱带来什么改变?
前不久,GeekCar 有幸采访到全球车载语音巨头赛轮思首席执行官 Stefan Ortmanns 博士。赛轮思技术应用在全球汽车占比约 53% ,这意味着每两辆新生产的汽车中就有一辆是使用它的技术。值得一提的是,在北美开启 ChatGPT 测试的奔驰 MBUX 系统,早已采用了 Cerence JustTalk 车载助理功能。在 Stefan Ortmanns 博士看来,目前的车载语音正处在「从典型的出行助理解决方案到沉浸式伴侣体验」的过程中,其中离不开 AI 的驱动。
赛轮思首席执行官 Stefan Ortmanns 博士
目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的?在这个过程中大模型究竟能带来哪些想象力?我们一起来看看。
车载语音1.0时代:
任务型助手的升级
对于很多人来说,目前语音交互最常见的两个场景,一个是在车里,另一个可能就是智能音箱了。
眼看着座舱智能语音的在新车中的渗透率高达 70%以上,在车里用语音交互被越来越多人接受,相比之下,智能音箱的处境就没那么乐观了,更多地沦为了家里哄孩子的工具,或者是控制智能家居的中台。其中关键一因素就是:边界。
如果把智能语音划分成任务型和闲聊型,目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境,容易把控的使用场景,让车载语音助手可以针对高频需求优化训练,主打一个「有求必应」:无论是打开车窗、空调,还是设置导航播、放视频,都建立在明确的指令下。给出指令——解决问题,一来一回,正好满足驾驶场景的需求。
因此,现阶段车载语音交互更多关注的是如何给任务型助手的升级:一方面是提高识别和响应速度;另一方面就是优化体验,比如类似的 oneshot、多轮对话能力,前面提到的 Cerence JustTalk 全时免唤醒对话功能,都建立在 AI 对全栈式技术的优化基础上,提高语音交互的准确率的同时,也提高了交互的效率。
作为用户来说,这种优化更直接的感受就是车载语音更加务实了:识别准确率提升,能摆脱冗余的唤醒词,不必再记住特定的指令,模糊指令也能识别……
从「出行助理解决方案」这个工具属性来看,体验提升了不少。不过对于智能语音来说,目标显然不止于此。
车载语音2.0时代:
AI驱动更主动、更像自然人的交互
尽管很多时候大家会说「谁开车时会需要闲聊啊?这不是耽误开车么?」但是更具有主动感知能力和自然交互能力的交互体验,一直是不可阻挡的趋势。
在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能,甚至不少车企打出的「情感交互」牌。
如果说情感交互、主动式交互听起来太抽象,那用Stefan Ortmanns博士的话来说就是:「从出行助理解决方案向沉浸式伴侣体验的过程,中间阶段就是虚拟副驾驶(Co-Pilot)阶段,这种趋势意味着能带来大量的信息。」
也就是从任务型助手向沉浸式交互发展,意味着更多信息的交互:系统获取更多的信息,处理更多信息,以及向用户传递更多信息。
现阶段是怎么做的呢?最常见的就是多模态融合。通过将语音和摄像头等实时信息融合,或者与以往的数据库融合,给出主动式的服务。
比如,赛轮思推出的 Cerence Co-Pilot 功能,就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候,系统能自动打开车窗;当监测到马上要到家时,提前询问是否打开家里的空调;当汽车电量不足时,主动提示附近充电桩导航;甚至引入生物识别引擎 Voice Biometrics,在座舱里实现声纹识别等多模态生物识别功能。
说起来容易,但实际应用中并不容易。以往,座舱内摄像头+语音交互融合的DMS 系统,就曾在不少车型上因为误判、误提醒成为麻烦制造机;为了解决 DMS 误提醒问题,语音数据与视觉数据融合需要处理 10 亿级别的图片数量。
因此,要让主动式交互更主动、更自然,既需要多模态融合能力,也要庞大的数据处理能力,以及对于自然语言和场景举一反三的泛化能力,避免遇到新状况时「当机」。
「庞大的数据训练」、「高效的自然语言处理能力」、「低样本、零样本的泛化能力」、「多模态模型」,如果你最近关注 ChatGPT 的进展,对上边这几个词肯定不陌生。可以说正是因为这些特点,GPT 成为了颠覆行业的存在。而这些特点,与语音交互未来发展需要的能力契合。
也就是说有了 GPT 这样的生成式 AI 的助力,未来座舱内多模态交互不会是各司其职,能融合得更丝滑,语音交互的闲聊也不再只是尬聊,那些智能语音给我们画过的「饼」,终于找到了造饼的工具。
大模型上车,没那么容易
尽管越来越多的车企宣布大模型上车计划,甚至已经有车企开始测试,不过大模型上车并不容易。
ChatGPT 可以给我们提供很多信息,但并非无所不能。比如当我问 ChatGPT 怎样开雨刮器,它可能只会给你提供一个通用的结果;如果我的车型比较创新,取消了传统的物理按键,ChatGPT 大概束手无策。
针对这种情况,赛轮思利用生成式 AI 和大语言模型,针对车载场景做出了成果。
比如, Car Knowledge 利用自研的生成式 AI,将主机厂提供的车辆信息、用户手册、传感器信息直接导入大型语言模型。这样驾驶员只需要简单描述自己的需求,甚至只是输入几个字就能找到专门针对这款车型的信息。
对于一个曾经经历过「由于车内没有物理按键,也无法用语音打开油箱盖,不得不在加油站翻用户手册」的人来说,在座舱里创新开关越来越多的今天,深感这个功能的实用。
当然,这只是生成式 AI 和大语言模型上车的小试牛刀而已。另一个 Cerence Browse 更符合我们对智能语音无所不知的闲聊属性的印象,赛轮思将互联网搜索引擎与车载助理集成,通过语音 AI 来解答的各类提问,主打一个陪伴。
前不久,奇绩创坛创始人、微软前全球执行副总裁陆奇在演讲中说,「未来世界有各种模型组成,每个人都将有多有不同领域的副驾驶(CoPilot),等 CoPilot 能力越来越强,就会变成一个正驾驶员(AutoPilot),再往下将拥有一个一个 Pilot team。」
目前,赛轮思基于生成式 AI 和大语言模型上车的产品,未尝不是在打造一个个不同领域的 CoPilot,并通过应用培养它们逐渐变强大,最终营造一个沉浸式的座舱交互体验。
「要创造一个真正的沉浸式车载体验,意味着我们需要超越对话式人工智能。」对于未来沉浸式车载体验的畅想,Stefan Ortmanns 博士这样回答。
最后
很多人说生成式 AI 的突破,让人工智能进入了 iPhone 时代。对于语音交互和智能座舱来说又何尝不是呢?
未来的智能座舱注定不会是触屏、手势、语音、视觉单一交互方式的单打独斗,而是彼此的相互融合,语音交互更像是一个交互中台的存在。所以大模型和生成式 AI 能为语音交互带来多少想象力,就意味着能为智能座舱带来多大想象力。
不论是对于我们,还是对于赛轮思这样语音交互解决方案提供者来说,在车里我们能「聊」的会越来越多。
发现更多关于
未来出行体验
相关文章
新闻稿
赛轮思再创先河,推出专为汽车市场定制的嵌入式小语言模型
了解更多
新闻稿
川崎携手赛轮思,为其摩托车系列带来全新的骑行体验
了解更多
新闻稿
赛轮思AI任命Tony Rodriquez为首席财务官
了解更多