智能个人助手距离 her 还有多远?
Facebook 的虚拟助手 “M” 进入 beta 测试阶段了。它采用人工客服和人工智能结合的模式,在文字聊天的界面中尽可能应答用户的一切需要——讲笑话,提醒起床,推荐约会地点,订餐等等。(下方是我们汉化了的界面图,更多测试界面图可以在这里看到。)
看起来,我们距离电影《Her》的世界又近了一步。然而,要彻底取代操作系统,为我们完成生活里绝大部分的任务,眼下的 M 和 Magic 还缺少什么?
1. 现在的智能助手相当于售货机里蹲个人,但未来不是要一台全自动的售货机,而是根本没有售货机。
完全基于人工智能的服务还很有限。看看 “百无一用” 的 Apple Siri 或者 Google Now、Microsoft Cortana 这一类产品就知道。M 的优化办法是,在人工智能的基础上,雇佣大量客服人员来做补充,这样一方面可以应对用户更多样复杂的需求,另一方面可以让训练 M 掌握服务规则。使用 M 订餐:“可不可以预约个全聚德的桌位,今天晚上四个人?” M 的逻辑会大致把任务拆解成这样:
意图:预约桌位
人数:4
时间:2015年9月6日
地点:北京,全聚德
随后 M 会组织一个自己的回答(“正在预约。”)这个回答不会传给用户会,而是给 Facebook 后台的客服人员。由客服人员来决定是否改进这个回答,再把最终版本回给用户(“好的,我来帮你预约。”) M 会学习这次人工回答的示范,改进自己,以期在未来用户提出订餐要求的时候,能组织出自己的。而随着人工智能的不断进化,需要客服人员来处理的任务会减少,最终实现纯粹的智能助手。
也就是说,到目前为止,消费者所面对的前端本质上还是酒店电话上那个客房服务的红色按键。后端的训练才是 M 这类产品的潜力所在。参与 M 开发的 Wit.ai 创始人 Alex Lebrun 说,他们之所以要招大量的客服,就是因为之前没有这样 “训练” 机器学习的数据。
如果这种 “训练” 是可行的,那么现阶段的很多开发工作都可以随之转向。比如说,软件的教学引导和帮助功能可以省去不做,或者说不必再以人类用户可以理解的动画、文字来制作,而是直接采用人工智能可以理解的语言。让这层 “app 上的 app” 去和五花八门的软件打交道,然后像个永远能解救你的同事一样,告诉你搞定了。相比起今天,我们需要学习怎么上手一款软件,怎么适应它的更新版本,未来我们会省却很多力气。就像今天我们使用计算机,不必像过去的操作者一样学习机器语言。
另一个可能的例子是,网站这种向用户集中展示信息的界面会变得不必要。如果我们可以直接跟助手说,“来几款今年秋天流行的外套来看看,别太贵”,那为什么还需要登上电商网站,输入外套,填写预算范围呢?电商们可能不再需要设计首页和过滤器,也不再需要开发理解自然语言的客服软件了。取而代之的,是做出更适合助手调取的产品介绍形式(比如用音频介绍商品),以及能和智能助手对接的客服软件。
在电影《Her》里有个桥段:智能助手 Samantha 问主人 Theodore 要不要喝茶,然后谑笑着催促 Theodore 自己从床上爬起来去倒,因为 Samantha 没有实际的行动力。但高度成熟的智能助手应该有能力驱动泡茶机,或至少可以向智能家居的管理软件发送指令。
换句话说,现在的智能助手就像是售货机里蹲了人,未来的目标不是紧紧让售货机全自动化,而是根本不需要立一台售货机,就能让人们手里拿到一瓶饮料。
2. 智能助手不是听候差遣的二次元跑腿,而是要做无所不觉、无微不至的都教授。
相比起竞争对手 Apple 和 Google,Facebook “训练” 智能助手去理解人类的自然文字有先天性的优势。前者需要耗费大量财力去录入人类语音,而 Facebook 的私信 Messenger 已经拥有海量日常对话的文字、音频记录,可以作为培训 M 的数据材料。但和从语音切入的 Siri 不同,M 选择了专攻文字,也许是为了让机器学习更切中自然文字的核心,也许也是因为 Messenger 所拥有的文字数据远远多过音频数据。
但无论是 Facebook 还是它的对手们都意识到,未来他们需要有更多接受信息的入口。“我们不需要告诉助手我们要它做什么,只要告诉它我们的焦虑是什么。” 国内基于微信和人工服务的个人助手 “Get 一下” 创始人任鑫认为比起被动接受买咖啡、打车这样的标准化任务,能主动理解更复杂的任务才是智能助手值得深化的方向。要让我们的想法不言自明,首先需要的,就是让智能助手可以吸取多种维度信息,察其言,也观其色。
开发者们想到了人工神经网络。这是用计算机模仿人来大脑的一个个神经元,在合适的模型里模拟出神经怎样执行其功能,从而最终理解人类是怎样思考的。目前的人工神经网络已经可以让计算机辨识图片中的人脸,听懂语音,甚至教会机器人怎样拧瓶盖。在人工神经网络的仿生能力基本成熟的基础上,智能助手搭配更多维的传感器就有望更 “懂” 我们。比如搭配体温传感器,可以在我们浑身哆嗦的时候,建议为我们买杯热巧克力,而不是由我们吩咐 “帮我叫一份巧克力”。比如通过人脸识别,可以理解我们流下眼泪的时候,需要来陪我们聊天,而不是由我们拿起手机发送 “给我讲一个笑话”。
此外,通过吸收多维度的信息,分析信息与信息之间的关联,智能助手的学习能力会成倍增长,还可以提供给我们本身想不到的任务需求。在今年的第 6 届国际环绕系统、网络及技术大会上,葡萄牙学者 Ponciano 等人(注 1)举出了这样的例子:当智能助手通过一些传感器了解到用户在每天早上 8 点钟翻身起床时,就可以主动把闹钟设在早 8 点;如果还有一个光传感器,让智能助手发现醒来后用户一定会通过开灯或者拉窗帘,让周围环境变亮,那么还可以设置程序在用户醒来后发送指令让电动窗帘拉开。通过用户的起床动作、时间和周围的光线条件,这三种信息的关联配合,我们的起床过程会比原先变得省心省力。而随着我们起床去做越来越多规律性的事情,智能助手还有可能给我们晨起之后倒杯水,准备好挤上牙膏的牙刷,毛巾泡过温水……
总而言之,智能助手不应该止于听凭吩咐,而是通过接收、分析丰富的信息来判断用户的需求,主动生成任务。从一种让用户省力的工具,变成让用户省心的工具。