VisionMobile：虚拟助手（VA）- Siri背后的前沿UI技术（一）-CFANZ编程社区

VisionMobile发布报告《Beyond Siri: The next frontier in User Interface》，分析虚拟助手技术的市场，包括关键技术和商务模式，竞争点，和跨4屏虚拟助手的演化。

自苹果在2011年推出Siri技术后，声控的移动虚拟助手（Virtual assistants VAs）应用跨过技术裂缝进入大众市场，帮助用户通过语音命令进行搜索、拨打电话和发送短信。去年，Siri触发一波模仿和创新，开发了数十个同类的智能手机应用。目前，Android和iOS下载量最大的是：Vlingo Virtual Assistant, Iris, Voice Actions, Skyvi, Everfriends和Dragon Go。在这份报道中，除Siri外，还分析语音分析专家Nuance公司的Dragon Go，可视化驱动i- Free创新的Everfriends, 人工智能创业公司Dexetra的iris和AT&T实验室的Speak4bit。

从命令（command）向对话（dialogue）转移。 VA技术从人工智能（AI）中获得发展，特别是自然语音处理（Natural Language Processing，NLP）、用户分析和搜索，VA从语音识别发展到用户意图预测。虚拟助手应用的关注点也从目前的命令和控制（我问你答）转向持续推荐和用户操作对话。老牌厂商，如SRI国际，苹果，Google和Nuance，以及新的挑战者，如Dexetra和i-Free创新公司，都正从命令转向对话。SRI国际将在2012年秋季展示back-and-forth对话技术。

虚拟助手正在干扰搜索。给出答案而非搜索结果是虚拟助手主张的核心价值。对于传统搜索引擎，这意味着页面点击的减少，会降低搜索广告的利润。根据visionMobile的数据，自安装Siri后，iPhone上的Google搜索流量出现下降。我们预期Google会为多个智能手机平台提供免费的Siri替代应用，绑定Google的搜索和广告。

虚拟助手是寻找目标用户的控制点。作为用户数据分析的收敛点，虚拟助手建立新的控制点。基于深入了解用户大量搜索关键词，VAs是第三方希望从用户关注来发现目标用户的关键点。

商务模式转为服务发布交易。目前，虚拟助手商务模式集中在用户数据采集，应用发布主要是免费下载。最top的43个VA应用尽管有超过1.33亿累计下载量，只有不到2百万美金收入。超过94%的下载来自Android，有接近86%的付费收入来自iiOS。未来，我们将看到从收入来自搜索、广告，以及不断增加的第三方交易和定制化头像，而不禁仅是下载应用。

虚拟助手成为手机制造商差异化的竞争点。将VAs集成到系统UI，而不仅仅是一个应用，使OEM更好地控制用户体验和服务发现。Apple最早将Siri集成在iOS5的UI中，其他手机制造商紧随其后，三星最新的智能手机已集成语音UI：Samsung Voice。根据我们的资料，Nokia将在2012年底提供一个Siri相类的UI，新的UI将利用Nokia的Navteq能力。

语音UI是跨屏的主要访问点。声控UI正成为支持触摸、手势、文字输入多种模式UI的关键组件。更重要的是，语音UI可成为通用的，跨屏的、与屏幕无关的UI，开始在平板，电视和台式机中使用。除了Apple和三星，Nuance也在多屏部署语音识别领域处于领先地位。（月光博客：中文Siri的技术是由Nuance Communications公司提供，该公司在App Store的应用Dragon Dictation也支持中文语音识别，不过相比讯飞语音来说，Dragon Dictation在中文领域还有一些差距。）

电信运营商的加入。NTT DoCoMo在1998年联合iConcier首次提出VA的概念，AT & T在部署VA应用是电信运营商的领军者。我们期待2014年看到更多的一流运营商部署基于富通信套件（Rich Communication Suite， RCS）标准的VAs。VA除作为服务发现网关外，优化VA网络访问将为运营商带来增值服务的差异化。

云端个性化VA将有利于Google和Amazon。下一代VAs的大量数据处理，将使虚拟助手从设备转向云端。当个性化VA存放在云端，虚拟助手将无缝实现在智能手机，TV，车载和智能家居中。作为建立云存储和云处理的公司，Google和Amazon将从中获取最大好处。

Google在免费语音识别API中保持强大。目前大多数VA应用选择的Android平台，Google在免费语音识别API中维持强大。更多语音识别厂商期待转向免费API，将现有VA语音识别（SR）引擎许可转为免费。

专利战争将渗入VA领域。SRI国际持有众多专利，Nuance持有2千个语音识别专利，AT&T在AI方面持有600个专利。当虚拟助手成为手机制造商竞争资本时，我们预计专利战争将从移动手机渗入VA领域。

强大B2B厂商Nuance在消费者VA市场中升起。Nuance的语音识别技术被Apple、Google使用，以及应用于消费者大量V接下载的VA应用，包括2个常被消费者下载的VA应用。Nuance直接面向消费者的应用帮助Nuance改进技术，但同时使公司和他自己的B2B客户竞争。

寻找目标用户市场的新机会。基于上下文用户分析通过关联消息、提供和推荐，为品牌带来更多用户，在基于上下文营销和广告开启了新机会。移动广告目前在数字广告中增长，已经证明当广告相关性增加时，移动用户兴趣也在增加。

一、虚拟助手：20年的4代技术发展

虚拟助手是搜索、拨号和短信等使用自然语言的上下文敏感的对话应用和接口。在过去10年，大公司部署的基于web的VA用于实现传统用户服务代理。Apple在2011年引入Siri，使虚拟助手越过沟壑进入大众市场。在Siri之前，VA已经有很长的旅途，在过去20年，发展了3代技术，目前正进入第4代。

虚拟助手最初是在90年代中期由Apple公司Paradigm项目分拆出来的，并由Marc Porat领导的General Magaic提出。General Magic的Portico是个基于网络的虚拟办公助手，用于美国桌面电脑和PAD的商务用户。Portico使用基于关键词的语音命令和语音合成，可进行语音邮件和电子邮件管理任务。尽管Portico通过索尼、AT&T、摩托罗拉零售，但最终证明它在商业上是失败的。

1998年，NTT DoCoMo在日本消费者市场引入iConcier。这是第二代的VA，安装在i-mode-enabled的手机上，人工智能功能包括对短语理解简单命令，通过虚拟头像回答实现对话。NTT与超过250家第三方签订内容交易协议，给付费用户提供从浏览巴士时间表到优惠券交易的服务。最初只在NTT自己的媒体平台i-mode中使用，今年，iConcier可提供给第三方Android开发者。

Siri在2011年4月进入市场，在此大约1年前，Nokia已部署了微软Tellme技术的语音搜索，Google也在此8个月之前为Android提供语音搜索。与Portico和最初的iConcier中相比，Siri和这些第三代VA有几个不同的因素。首先，自然语言处理（NLP）使VA和用户之间的互动更真切，幽默元素使VA感觉更像个体真人。其次，现在第三代VA平台实现的任务已经超越传统通信，例如拨号和短信，可以访问第三方内容，最常见的是web搜索结果，还有用户个人内容，如Facebook和Twitter状态更新。广泛使用智能手机和移动数据连接的改善推动这次演进。

正在研究第四代虚拟助手技术，更接近真人，不仅理解语言，还懂得用户意图，并最终预测用户需求。第四代VA个性化将驻留云端，因为有大量数据需要处理，这令云处理公司，如Google和Amazon，占据上风。第四代VA将从SRI，AT&T实验室和Nuance的NLP，语音识别，个性化和搜索中受益。

“Google和一些研究实验室有能力建立下一代VA技术。SRI理所当然很乐意和Google合作”Norman Winarsky说。他是SRI国际公司的副总裁，斯坦福大学的访问学者，Siri背后的大脑之一。

SRI国际公司将在2012年秋季演示前后对话。AT & T实验室计划6月份允许第三方开发者获取其人工智能平台Watson的API。我们了解到Apple正将Siri深度集成到核心iOS应用，并从iPhone扩展到其他屏。i-Free正投资3D可视特性，Dexetra正研究用户个人历史搜索。根据我们的资料，Nokia利用它的Navteq能力，将在2012年底提供Siri类似的UI。

虚拟助手的4代：

	1995-1999	2000-2010	2011	2012-2015
VA类型	虚拟电话助手被动，嵌入程序	虚拟看门人被动，以任务为核心，嵌入设备	虚拟搜索助手被动，以人为核心，嵌入设备	新UI：您的生活伙伴主动，以生活为中心，嵌入设备
架构	基于移动网络	基于设备，基于移动网络	基于设备，基于云	绝大部分基于云
技术	语音合成技术关键词	语音识别技术关键词和短语	语音识别短语	自然语言理解前后对话
接口	简单语音命令	文字到语音	文字到语音，语音到文字	多种模式：说话、文字、手势、触摸
语言	美国英语	美国英语本地化开发VA的本地语言	美国/英国英语部分本地语言	All
执行任务	短信，拨号，读电邮，跟踪任务，安排约会	提供第三方信息（天气、优惠券等），提示设置	网络搜索，导航，使用用户数据设置提示，打开其他应用和本地数据	提供上下文和用户关联的第三方信息，推荐等
屏幕	台式机，PAD	功能手机	智能手机和平板	智能手机、平板、计算机、TV、车载
人工智能	无关键词理解	简单命令响应短语理解	有限的对话幽默，一些意图理解	意图预测
开发APIs	无	无～有一些	有一些	各种类型第三方APIs
个性化	无	虚拟头像（虚拟人物）	用户特定内容，虚拟头像，语音	用户和上下文特定内容和服务，虚拟头像，语音
听众	美国市场商务用户	美国市场，亚洲商户用户，B2B，消费者	美国市场，亚洲，欧洲 B2B，消费者	全球 B2B，B2C，B2B2C
商务模式	付费，基于使用	付费，基于订购	年费和付费应用，广告/搜索收入分成，版权许可，垂直应用	第三方内容和服务收入分成，版权许可，垂直应用
谁推出	电信运营商	电信运营商	手机制造商，开发者，最终用户	手机和设备制造商，SR和AI厂商，B2B2C，云公司，开发者
典型代表	Portico's Mary（1996） Wildfire（1995）	NTT的iConcier（2008）韩国电信的Nate	Siri Dragon Search Voic Actions Vlingo Everfriends Iris Speaktoit	SRI's next generation VPA Google Glass