一帮智能助手找出路，集体报班托儿所

2018.07.23 17:40

虽说需人工帮助的 AI 助手不新鲜，但手机厂商的重视会让它更实用
给智能助手报班这件事上，各家的方向也不尽相同
生态决定语音平台能否做成，但以后平台还是会「去生态化」
傻瓜式的语音助手就是给傻瓜用的吗？

苦熬多年，背负「智障」之名的 Siri 在社交媒体上终于有了要翻身的迹象。

在即将推出的 iOS12 上，苹果新增了一个叫 Shortcuts 的 App ，意图让用户根据自己的需求手动定制可用 Siri 执行的语音命令，同时还为开发者更新了 SiriKit 开发套件作为该服务背后的支撑。

虽说需人工帮助的 AI 助手不新鲜，但手机厂商的重视会让它更实用

这个 Shortcuts 也并非什么新鲜玩意。从产品的主要界面和使用方式来看，它和 2017 年初苹果收购的 Workflow App 大体上差不多。可以说 Shortcuts 基本是 Workflow 换壳上架的产物。

在此之前，这种「需要人工帮助的助手」在 Android 上也已有出现。去年 4 月和 10 月，乐视、三星便分别给自家手机上的语音助手加上了教学功能，让用户教手机如何把语音命令和一步步的操作联系起来。今年，小米和 vivo 也做了同样的事。至于第三方开发者做的，以 Tasker 为代表的老牌自动化工具，探索之路则早更多了。

不管哪一款产品，归根结底还是在把现有的服务做得更自动化一些，而不是凭空造出万能的解决方案。过度吹捧其概念，将之炒作为「黑科技」、「神器」，宣称其可以让人效率节省 X 倍，甚至从此「再也不必XXX」是不合时宜的。

但同时，这些改良后的智能助手，其实用性仍值得肯定。它们多可以用语音唤醒，并设有一个实体键入口，让用户能很方便找到并使用。而用户自己设置添加的语音技能，也更让它们更能贴近现实情境，把需求有效落地。

如果新技能被创造并大量使用，厂商亦将可以从数据中更准确地把握用户的需求，让产品变得更好用，进而为自家产品赢得更多卖点。

给智能助手报班这件事上，各家的方向也不尽相同

在让用户手把手教智能助手「生存技能」这件事上，各家的方案虽有不少相通的地方，但如果细挖其中具体实现的方式，其实又有很多差异之处。

跟着用户录的视频教材学是 Android 厂商们最爱的方式

拿最近常被人声称可「完虐 Siri」的小米小爱同学和 vivo 的 Jovi 来说。这两者就是通过录制屏幕画面的办法，先记录用户为达成某个目标（比如发朋友圈）时所进行的一步步操作；当用户说出语音命令时，再将对应那套动作逐一复现，来实现所谓智能。一年前给乐视助手提供技术支持的奇点机智，用的也是同样的方法。¹

录屏是个取巧的手段。大公司和创业团队都选择这个思路，因为它绕了过第三方 App 的开发者，直接为任意一个 App 提供自动化的支持。比方说，用小爱在京东App 捡金豆这件事，京东事先对此不知情都有可能。

但其有个明显的缺点——一旦开发者更新调整了 App 的界面，之前录制的相关动作可能会直接报废。此时如果没人重新制作和共享，之前爱用这套命令的用户就会受到影响²。

不过，只要用户的使用量足够多，使用得足够频繁，上述也不是问题———总会有人乐于分享自己的举手之劳，保障技能储备的快速增长，让语音命令随 App 的版本及时迭代。这也将为开发团队节省大量的资源成本。

使用录屏方案的公司中也有个特例。三星的 Bixby 就是开发团队自己先把动作录制好了，内置在系统里，再提供给用户自由排列组合的。其交互逻辑看起来和 iOS 上的 Workflow App 就十分相像。结果就是微信每做相应的调整，就会导致一些三星用户抱怨：Bixby 发朋友圈的功能又不 Work 了。³

苹果更愿意向专业点的用户学习

相比之下，苹果断不会把读取录屏信息放到 Shortcuts 里，重视安全和隐私的产品文化让现在的 iOS 系统没法支持这种事的发生。

所以它里面许多基础性的动作仍必须由苹果内置，比如拨打电话之类。至于第三方 App 要想传递数据或者打开界面，也只能由其开发者自行添加相关的支持。⁴

这也意味着用户在做一个稍长点的流程时，就不得不用抽象的逻辑去思考。其虽比用代码编程更直观、易上手，但相较录屏就要困难许多，难为大众所接受。

既然普通用户玩不来，Siri 的技能增长就只能依赖于专业点的用户，尽管这显然会限制 Shortcuts 数量上的增长。

值得一提的事，Mac 上的自动操作程序 Automator 是同时支持录屏方案和 Shortcuts 式动作模块拖拽方案的。只是该应用多年未见更新，早被外界视为是被苹果放弃了的产品。

更具开放性的 API 接口才是主流的语音方案

说到需要第三方开发者支持的问题，就不得不提已在全球市场上形成气候的 Google Assistant 和 Amazon Alexa。

这两者的一个共同处境是，它们都没法像小米和苹果那样直接控制手机系统的交互。Google 的 Android 系统过于碎片化，手机厂商掌握了太多话语权；Amazon 的手机则根本没做起来。如今 Google Assistant 和 Alexa 主要通过 API 网络接口的方式增强自己的技能服务，原因首先就在于此。

简单来说，这种方式可以让平台方直接把用户的意图发去开发者远程的服务器上，待数据处理后，反馈再经由平台方的服务器，传回到用户的终端。

尽管开发者仍需要根据不同语音平台的标准付出更多精力，但好处是只要能做好语音交互，服务即可上线运行——屏幕上的视觉交互界面都可以彻底忽略。这比起开发一个 Siri 应用可是要轻松不少。因为苹果要求开发者必须先提交一个 iOS App，而后才能在 App 基础上把语音命令作为附加。

Google Assistant 和 Alexa 更突出的一个共性是，它们都十分重视跨平台体验。具体来说：

首先它们都有自己的智能音箱，而且卖得还不错。根据 Strategy 五月的统计数据，两家的智能音箱出货量仅在 2018 年 1 季度就分别为 240 万、400 万，年增长率更达 709%、102%。
再者，它们都有一套开放的硬件生态圈。早先 Alexa 就已内置到了 LG、华硕等多个品牌产品中，5 月时更是和微软合作要在 Windows 10 中与小娜共存。甚至普通消费者也能拿几十美元的树莓派自己造一个 Alexa 音箱。去年 9月 Google Assitant 也一次晒了 19 家硬件合作方。
普通用户想要自定义语音技能也不难，就算不懂编程，也能在 IFTTT 上找到相应的动作，用傻瓜式的界面把语音命令和屋里的家电关联起来。
此外，它们还提供多个手机平台的客户端。而用户只要一次设置便可在包括音箱在内的所有的终端上使用。这点对于严重依赖屏幕 App 的 Siri 和 Jovi 之类来说根本不可能。

尽管最近录屏方案开始走进国内大众的视野，但显然 API 的方法才会是未来语音交互的主流。目前包括小米在内，以及国内的阿里、百度、腾讯都建立了自己的语音开放平台，沿着 Google 和亚马逊的路子在走。其中小米小爱、天猫精灵、百度 DuerOS 已在智能音箱领域分别跻身全球 3-5 位。

生态决定语音平台能否做成，但以后平台还是会「去生态化」

既然语音助理们仍需要用户调教和开放 API，就表明大公司还不能只靠自己的力量满足所有的用户需求。所以第三方开发者对于平台方来说仍十分必要。

正如苹果每年都要反复强调 App Store 上的应用数和给第三方开发者的分成，语音平台同样也会拿自己的语音技能数作为宣传的点。这不仅仅是在展示能力，同时也是想表达自己受开发者欢迎的程度。这种和开发者共荣的关系，用当下科技圈一个时髦的词讲，即所谓的生态。

从 App Store 到淘宝再到公众平台，建立生态的好处已无须赘述。但不可忽视的是，随着这些生态做大做强，它们也变得越来越封闭。所以当某个平台一旦称自己有了生态，那也必然是在说：我们掌握了流量入口，想参与进来的软件开发者和硬件厂商必须守规矩才行。

对于用户而言，其中的一个影响是数据的迁移会变得复杂。试想一下小爱同学的用户要想把自己创建的技能迁移到天猫精灵上会有多麻烦，更不要说迁移到 Siri 或者 Alexa 上了。

更容易被感知的则是内容服务上的封闭。比如用户要在天猫精灵上播放 QQ 音乐账号里的歌单就是件头疼事。即便天猫体系里的虾米音乐以后支持从 QQ 音乐里导入数据，由于两家的曲库中还有部分独占的内容，所以播放出来的内容仍有可能是不完整的。

目前各家科技巨头几乎都在音乐、有声书、电商领域有了至少一块稳固的地盘，并试图在向其他领域扩张。像小米还单独给小爱搞了个订阅号，让用户用耳朵听订阅的内容。

从共荣的生态走向封闭，道理也很简单。因为建设一个优质的平台，不管是内容版权的购买，语义识别、推荐算法等基础设施的搭建，还是早期为吸引开发者提供的大量补贴，都需要大量的资源投入。如果太过开放，而留不住用户，烧掉的钱就很难收回来。

另外，封闭也能保证用户有一个统一而顺畅的交互体验———硬件和系统都由苹果一手操办的 iOS 就是个例子。由于语音交互方式比触屏更为单一，用户可能更难分清哪些服务是由平台提供的，哪些是第三方提供的。因而第三方品牌能获得的用户忠诚度可能会更低，其产品最终为平台方推出的同类服务所取代也说不定。事实上，这一点在手机平台上就已经在发生了。

所以不论现在语音平台推什么建设生态的方案。付费技能、订阅服务也好，植入性广告联盟、语音电商导购返利模式也罢，最终第三方被蚕食的命运都很难改变。

加之语音交互的市场想象力有限，且出现破坏性创新者的可能性不大，科技巨头们「去生态化」的节奏可能还会比手机上来的更快一些。

傻瓜式的语音助手就是给傻瓜用的吗？

的确，语音助手是一种只要会说话就能用的东西。可难道只要会说话的人能使用它就够了？换言之，语音交互的目标到底该是把互联网服务普及给更多人，还应该是创造更好的生活方式的可能？

我并不否认语音助手们可以让技术惠及更多的人。比如说对于不知道如何在手机上购买飞机票的人来说，语音助手可能会帮助他们更方便地购票。但我们也不能忽视，语音搜索和购买体验的「优化」，不仅仅是流程上的减少，也是用户可接触信息的减少。比如候选的卖家数量、售前售后条款、卖家的评价口碑，就很容易在单纯的语音交互中被省略掉。

更本质地问题是，这也让平台获得了更多隐形的权力。对此科技公司们可能会辩解：「Less is more」，用户用得越多，算法给出的推荐质量一定会越来越高，也就没必要展示太多额外信息了。可我们当下在手机上就已发生的「大数据杀熟」现象又该怎么解释呢？

此外内容消费方面，语音助手也放大了智能手机时代的弊病——用户要想通过语音交互筛选信源会比小屏幕上更加麻烦，同时语音朗读的新闻里也更没可能添加链接。也就是说，如果一个人只用语音助手消费资讯，他可能会得到一个视野更加狭隘的信息流。

信息如果只是单向传递，那和老式收音机有什么区别？（图片来自 Timbo84，Pixabay）

如此一来，即便技术普及到了更多的人群，它能给这个社会带来的积极意义也要打上折扣。

诚然，当下技术进步速度很快。也许用不了多少年，上述质疑都就会被彻底解决。但问题是，还没等技术适应我们，我们自己可能就先被语音技术改造了。

比如为了配合语音助手内读取关键词，用户自然会更多地使用机器能理解的表达方式。这种情况并不是没有先例。看网上各种流行词的滥用，足以说明互联网早就把人类语言掌控在手心。

另一个例子是随着手机的普及，短小的内容变得更易获得点击，继而导致内容生产者也会越来越多创造浅显、缺失上下文的内容。如果没出现什么新的解决办法，这一趋势势必也会在语音行业获得延伸。结果就是高质量内容更难生存，人们的思维更加肤浅而割裂。

大多数人都会说话也并不代表人人都能准确表达出自己想要的意思。如果用户在表达过程中不够准确，那算法也可能会得出错误的结论，但由于是语音交互，要想提交反馈或举报，来矫正机器的理解也会变难。当用户苟且接受了语音助手的结果，未来机器就可能错上加错。

如此一来，更好的生活方式又从何谈起呢？

后者如今还有一个独立的 App「小不点」在 Android 应用市场上开放给用户使用。 ↩
但众厂商未必会将之视为弊端，它们可以此为借口更积极地把用户从第三方应用市场赶到自家圈子里，继而赚取更多营销收入。 ↩
去年年末，三星还说要拿 Deep Link 技术和 Bixby SDK 让 App 开发者们给 Bixby 提升体验。但至今这个 SDK 仍没有兑现。 ↩
从这套思路来看，Shortcuts 和 Bixby Lab 的定位是差不多的。 ↩

语音助手自动化，智能音箱，大数据，去生态化

Comments

△

思斯作响