0
点赞
收藏
分享

微信扫一扫

VisionMobile:虚拟助手(VA)- Siri背后的前沿UI技术(一)


VisionMobile发布报告《Beyond Siri: The next frontier in User Interface》,分析虚拟助手技术的市场,包括关键技术和商务模式,竞争点,和跨4屏虚拟助手的演化。

自苹果在2011年推出Siri技术后,声控的移动虚拟助手(Virtual assistants VAs)应用跨过技术裂缝进入大众市场,帮助用户通过语音命令进行搜索、拨打电话和发送短信。去年,Siri触发一波模仿和创新,开发了数十个同类的智能手机应用。目前,Android和iOS下载量最大的是:Vlingo Virtual Assistant, Iris, Voice Actions, Skyvi, Everfriends和Dragon Go。在这份报道中,除Siri外,还分析语音分析专家Nuance公司的Dragon Go,可视化驱动i- Free创新的Everfriends, 人工智能创业公司Dexetra的iris和AT&T实验室的Speak4bit。

从命令(command)向对话(dialogue)转移。 VA技术从人工智能(AI)中获得发展,特别是自然语音处理(Natural Language Processing,NLP)、用户分析和搜索,VA从语音识别发展到用户意图预测。虚拟助手应用的关注点也从目前的命令和控制(我问你答)转向持续推荐和用户操作对话。老牌厂商,如SRI国际,苹果,Google和Nuance,以及新的挑战者,如Dexetra和i-Free创新公司,都正从命令转向对话。SRI国际将在2012年秋季展示back-and-forth对话技术。

虚拟助手正在干扰搜索。给出答案而非搜索结果是虚拟助手主张的核心价值。对于传统搜索引擎,这意味着页面点击的减少,会降低搜索广告的利润。 根据visionMobile的数据,自安装Siri后,iPhone上的Google搜索流量出现下降。我们预期Google会为多个智能手机平台提供免费的Siri替代应用,绑定Google的搜索和广告。

虚拟助手是寻找目标用户的控制点。作为用户数据分析的收敛点,虚拟助手建立新的控制点。基于深入了解用户大量搜索关键词,VAs是第三方希望从用户关注来发现目标用户的关键点。

商务模式转为服务发布交易。目前, 虚拟助手商务模式集中在用户数据采集,应用发布主要是免费下载。最top的43个VA应用尽管有超过1.33亿累计下载量,只有不到2百万美金收入。超过94%的下载来自Android,有接近86%的付费收入来自iiOS。未来,我们将看到从收入来自搜索、广告,以及不断增加的第三方交易和定制化头像,而不禁仅是下载应用。

虚拟助手成为手机制造商差异化的竞争点。将VAs集成到系统UI,而不仅仅是一个应用,使OEM更好地控制用户体验和服务发现。Apple最早将Siri集成在iOS5的UI中,其他手机制造商紧随其后,三星最新的智能手机已集成语音UI:Samsung Voice。根据我们的资料,Nokia将在2012年底提供一个Siri相类的UI,新的UI将利用Nokia的Navteq能力。

语音UI是跨屏的主要访问点。声控UI正成为支持触摸、手势、文字输入多种模式UI的关键组件。更重要的是,语音UI可成为通用的,跨屏的、与屏幕无关的UI,开始在平板,电视和台式机中使用。除了Apple和三星,Nuance也在多屏部署语音识别领域处于领先地位。(月光博客:中文Siri的技术是由Nuance Communications公司提供,该公司在App Store的应用Dragon Dictation也支持中文语音识别,不过相比讯飞语音来说,Dragon Dictation在中文领域还有一些差距。)

电信运营商的加入。NTT DoCoMo在1998年联合iConcier首次提出VA的概念,AT & T在部署VA应用是电信运营商的领军者。我们期待2014年看到更多的一流运营商部署基于富通信套件(Rich Communication Suite, RCS)标准的VAs。VA除作为服务发现网关外,优化VA网络访问将为运营商带来增值服务的差异化。

云端个性化VA将有利于Google和Amazon。下一代VAs的大量数据处理,将使虚拟助手从设备转向云端。当个性化VA存放在云端,虚拟助手将无缝实现在智能手机,TV,车载和智能家居中。作为建立云存储和云处理的公司,Google和Amazon将从中获取最大好处。

Google在免费语音识别API中保持强大。目前大多数VA应用选择的Android平台,Google在免费语音识别API中维持强大。更多语音识别厂商期待转向免费API,将现有VA语音识别(SR)引擎许可转为免费。

专利战争将渗入VA领域。SRI国际持有众多专利,Nuance持有2千个语音识别专利,AT&T在AI方面持有600个专利。当虚拟助手成为手机制造商竞争资本时,我们预计专利战争将从移动手机渗入VA领域。

强大B2B厂商Nuance在消费者VA市场中升起。Nuance的语音识别技术被Apple、Google使用,以及应用于消费者大量V接下载的VA应用,包括2个常被消费者下载的VA应用。Nuance直接面向消费者的应用帮助Nuance改进技术,但同时使公司和他自己的B2B客户竞争。

寻找目标用户市场的新机会。基于上下文用户分析通过关联消息、提供和推荐,为品牌带来更多用户,在基于上下文营销和广告开启了新机会。移动广告目前在数字广告中增长,已经证明当广告相关性增加时,移动用户兴趣也在增加。

一、虚拟助手:20年的4代技术发展

虚拟助手是搜索、拨号和短信等使用自然语言的上下文敏感的对话应用和接口。在过去10年,大公司部署的基于web的VA用于实现传统用户服务代理。Apple在2011年引入Siri,使虚拟助手越过沟壑进入大众市场。在Siri之前,VA已经有很长的旅途,在过去20年,发展了3代技术,目前正进入第4代。

虚拟助手最初是在90年代中期由Apple公司Paradigm项目分拆出来的,并由Marc Porat领导的General Magaic提出。General Magic的Portico是个基于网络的虚拟办公助手,用于美国桌面电脑和PAD的商务用户。Portico使用基于关键词的语音命令和语音合成,可进行语音邮件和电子邮件管理任务。尽管Portico通过索尼、AT&T、摩托罗拉零售,但最终证明它在商业上是失败的。

1998年,NTT DoCoMo在日本消费者市场引入iConcier。这是第二代的VA,安装在i-mode-enabled的手机上,人工智能功能包括对短语理解简单命令,通过虚拟头像回答实现对话。NTT与超过250家第三方签订内容交易协议,给付费用户提供从浏览巴士时间表到优惠券交易的服务。最初只在NTT自己的媒体平台i-mode中使用,今年,iConcier可提供给第三方Android开发者。

Siri在2011年4月进入市场,在此大约1年前,Nokia已部署了微软Tellme技术的语音搜索,Google也在此8个月之前为Android提供语音搜索。与Portico和最初的iConcier中相比,Siri和这些第三代VA有几个不同的因素。首先,自然语言处理(NLP)使VA和用户之间的互动更真切,幽默元素使VA感觉更像个体真人。其次,现在第三代VA平台实现的任务已经超越传统通信,例如拨号和短信,可以访问第三方内容,最常见的是web搜索结果,还有用户个人内容,如Facebook和Twitter状态更新。广泛使用智能手机和移动数据连接的改善推动这次演进。

正在研究第四代虚拟助手技术,更接近真人,不仅理解语言,还懂得用户意图,并最终预测用户需求。第四代VA个性化将驻留云端,因为有大量数据需要处理,这令云处理公司,如Google和Amazon,占据上风。第四代VA将从SRI,AT&T实验室和Nuance的NLP,语音识别,个性化和搜索中受益。

“Google和一些研究实验室有能力建立下一代VA技术。SRI理所当然很乐意和Google合作”Norman Winarsky说。他是SRI国际公司的副总裁,斯坦福大学的访问学者,Siri背后的大脑之一。

SRI国际公司将在2012年秋季演示前后对话。AT & T实验室计划6月份允许第三方开发者获取其人工智能平台Watson的API。我们了解到Apple正将Siri深度集成到核心iOS应用,并从iPhone扩展到其他屏。i-Free正投资3D可视特性,Dexetra正研究用户个人历史搜索。根据我们的资料,Nokia利用它的Navteq能力,将在2012年底提供Siri类似的UI。

虚拟助手的4代:


1995-1999

2000-2010

2011

2012-2015

VA类型

虚拟电话助手

被动,嵌入程序

虚拟看门人

被动,以任务为核心,嵌入设备

虚拟搜索助手

被动,以人为核心,嵌入设备

新UI:您的生活伙伴

主动,以生活为中心,嵌入设备

架构

基于移动网络

基于设备,基于移动网络

基于设备,基于云

绝大部分基于云

技术

语音合成技术

关键词

语音识别技术

关键词和短语

语音识别

短语

自然语言理解

前后对话

接口

简单语音命令

文字到语音

文字到语音,语音到文字

多种模式:说话、文字、手势、触摸

语言

美国英语

美国英语

本地化开发VA的本地语言

美国/英国英语

部分本地语言

All

执行任务

短信,拨号,读电邮,跟踪任务,安排约会

提供第三方信息(天气、优惠券等),提示设置

网络搜索,导航,使用用户数据设置提示,打开其他应用和本地数据

提供上下文和用户关联的第三方信息,推荐等

屏幕

台式机,PAD

功能手机

智能手机和平板

智能手机、平板、计算机、TV、车载

人工智能


关键词理解

简单命令响应

短语理解

有限的对话

幽默,一些意图理解

意图预测

开发APIs


无~有一些

有一些

各种类型第三方APIs

个性化


虚拟头像(虚拟人物)

用户特定内容,虚拟头像,语音

用户和上下文特定内容和服务,虚拟头像,语音

听众

美国市场

商务用户

美国市场,亚洲

商户用户,B2B,消费者

美国市场,亚洲,欧洲

B2B,消费者

全球

B2B,B2C,B2B2C

商务模式

付费,基于使用

付费,基于订购

年费和付费应用,广告/搜索收入分成,版权许可,垂直应用

第三方内容和服务收入分成,版权许可,垂直应用

谁推出

电信运营商

电信运营商

手机制造商,开发者,最终用户

手机和设备制造商,SR和AI厂商,B2B2C,云公司,开发者

典型代表

Portico's Mary(1996)

Wildfire(1995)

NTT的iConcier(2008)

韩国电信的Nate

Siri

Dragon Search

Voic Actions

Vlingo

Everfriends

Iris

Speaktoit

SRI's next generation

VPA

Google Glass


举报

相关推荐

.NET Core剪裁器背后的技术

0 条评论