微信号:infoqchina

介绍:有内容的技术社区媒体

四大AI虚拟助手哪家强?Siri、Alexa、谷歌助理和Cortana实测

2017-02-17 08:00 TalkingData
作者|TalkingData
编辑|朱昊冰
人工智能的技术概念已经有了爆发的迹象,属于AI的时代也许即将来临。作为屡屡被用户调戏的AI虚拟语音助手,这四家到底谁更强呢?我们一起看下实战评测!
写在前面

2016年是主流科技公司迎接虚拟语音助理的发展元年,而近期在欧美持续走红的亚马逊Echo更是凸显了该趋势。涉及人工智能的主流科技公司普遍认为人工智能将成为人机互动的砥柱,同时也开始通过智能虚拟助理为切入点,布局他们的人工智能市场,如:苹果的Siri,亚马逊的Alexa,微软的Cortana以及谷歌的谷歌助理。

虽然智能虚拟助理技术已经历了较长时间的发展,但这些科技巨头都认为智能虚拟助理尚处发展期,未来智能助理发展的道路仍任重而道远。尽管如此,智能虚拟助理已开始逐步渗透入人们的生活之中。

为了更加有效的验证各家公司智能虚拟助理的性能,本文对四款智能虚拟助理分别进行了测试。由于缺乏标准化、体系化的方法用于评测智能虚拟助理的综合能力;因此,实验中选取了尽可能多的基本话题,以达到最佳的测试效果,包括:

  • 出行

  • 电子邮件

  • 信息

  • 体育运动

  • 翻译

  • 系统功能

  • 基本知识

  • 音乐

  • 天气

  • 日程

  • 生活服务

基于这十一项测试条目,对四类智能虚拟助理分别提出常见的问题和指令进行测试。值得一提的是,本次测试所使用的设备:

  • Siri,测试设备为iPhoneSE

  • 谷歌的助理,测试设备为Goodgle Pixel XL

  • Cortana,测试设备为ThinkPad X1 Yoga

  • Alexa,测试设备为Amazon Echo Dot

Note:尽管亚马逊目前已面向Kindle Fire平板推出Alexa,但在进行本测试前,Alexa尚未在Kindle Fire上发布。

为了更佳有效的评估各类虚拟助理的功能性,TalkingData从:情景交互能力、知识库完整度、AI智能功能完整度以及第三方应用功能整合能力四方面对四类智能虚拟助理进行评估。

测试1:出行场景     表1 出行场景测试结果

1、出行路径规划:从路径规划角度来看,谷歌助理的智能化能力最强。首先,从情景交互层面,谷歌助理与Alexa能够实现出行路径规划的全语音交互,语音交互具备实现上下文关联的识别能力;Siri和Cortana在该情景的交互上,无法实现上下文的关联,深度交互依赖于手动触碰选择。在功能的智能化方面,谷歌助理依托于谷歌地图的强路径规划能力,能够主动规划路径,并提供不同交通方式的路径与耗时;Siri与Cortana在语音匹配地址时通过模糊匹配,需用户二次确认才能进行后续的路径规划;Alexa虽然能够依托YelpData计算与目的地的距离及行车耗时,但不具备路径规划的能力。

2、航班预订:谷歌助理在航班预订的功能上也最为完善。首先,在情景交互层面:谷歌助理与Alexa在语音交互均未实现上下文关联的深度交互,需要配合触碰操作完成交互。其次,在功能的智能化方面,谷歌助理通过整合Google Flights支撑用户查阅、预定机票的功能(主要依赖触碰交互);Alexa 虽然整合了Kayak的航班查阅功能,但预定功能尚未开放。Siri与Cortana未能语音识别航班预定的需求,其航旅出行的知识库仍有待完善。

3、出租车预订:Siri、Cortana、Alexa均能通过交互较好的实现出租车预订功能。首先在情景交互层面,Siri、Cortana、Alexa均能与用户实现在目的地确认、车型选择、车辆预订的深层交互。其次,在功能方面,除了能够满足选型与预定功能,Siri、Cortana、Alexa通过整合的地图功能,帮助用户实现路径规划以及乘车成本的估算。由于谷歌助理未整合第三方出租车应用,尚不具备这方面的交互能力;在语义识别能力方面,也无法识别打车语义。

总结:谷歌助理在已实现的出行场景功能方面表现的最好,主要体现在语音深度交互的体验以及基本功能的完善度;然而谷歌助理功能覆盖度尚不完善,主要表现在第三方的应用整合上。Siri在已实现的功能上,整体表现较好,但在语义深度分析上,稍弱于谷歌助理;Alexa在出行领域的功能覆盖面最全面,也尽可能的进行了第三方应用的整合,但显然第三方应用的功能整合并不完全;Cortana出行功能的完善度与Siri基本一致,但在路径规划的精准语义分析方面稍弱于Siri。

测试2:邮件场景     表2 邮件场景测试结果

1、邮件发送:谷歌助理与Siri在邮件发送的交互与功能最为完善。在情景交互层面,谷歌助理与Siri均能实现邮件发送场景下通过语音交互,实现上下文的的关联,并且对姓名有很高的语义识别度,只是谷歌助理的交互界面相比Siri更加丰富一些;相比之下,Cortana虽然能够实现深度语音交互,但其对语音姓名的识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana都较为完善,均能够实现邮件新建、编辑与发送。最后,从应用的整合角度来看,Cortana表现的最佳,能够关联任何windows自定义的邮件;相比之下,谷歌助理与Siri分别只支持各自的邮箱Gmail和Apple Mail。

2、未读邮件查阅:Siri是唯一能够正确语音识别新邮件查阅并进行交互的智能虚拟助理。在情感交互层面,Siri能够理解语义,调用邮箱未读邮件与用户交互;在功能层面,Siri能够较好的整合Apple mail的功能,主动调出未读邮件箱。谷歌助理虽然能够看出在邮件查阅功能上确实有所应用,但在交互能力以及智能化的功能实现(理解语义并调用未读邮件箱)以及应用的整合方面(Gmail)都未完善。Cortana面对知识库无对应解决方案时,会调用Bing搜索解决问题。

3、查阅最近邮件:同样,只有Siri能够正确的完成最近邮件的查阅。在情感交互层面,Siri能够理解语义,并正确调用最近未读邮件进行交互;在功能层面,Siri同样能够按照时间序列/排序很好的筛选出最近未读的邮件,展现并实现查阅邮件的跳转(至Apple Mail)。谷歌助理和Cortana存在的问题同上。

总结:Siri在邮件场景的情景交互以及功能最为完善,主要原因可能在于苹果作为手机厂商的许多默认内置应用的优势,尤其在应用功能整合的成本要比其他助理小得多。同样,谷歌助理在已实现的功能上(邮件发送)表现最为优秀,但其功能完整度问题仍然较大,而且值得注意的是,谷歌助理与Gmail在打通整合方面存在一定问题。Cortana很直观的表现出其知识库以及智能化能力不足的问题,将无法识别的问题直接调用Bing搜索。

测试3:信息场景     表3 信息场景测试结果

1、信息发送:谷歌助理与Siri在信息发送的交互与功能最为完善。在情景交互层面,谷歌助理与Siri均能实现上下文的语义关联,通过语音全流程实现交互(甚至包括内容输入),并且对姓名有很高的语义识别度;相比之下,Cortana虽然能够实现语音交互,但在信息输入无法通过语音交互,且在语音的姓名识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana都较为完善,均能够实现邮件新建、编辑与发送。

2、未读信息查阅:仅有Siri能够识别并很好的完成本项功能。在情景交互层面,Siri几乎支撑全流程的语音深度交互(查阅、咨询是否回复、信息回复)并配合可视化展现正确的短信功能;在功能上,Siri也做得十分完善,能够智能的筛选未读短信、语音支持短信文本编辑,信息回复等。

3、阅读推特信息:Alexa在推特信息阅读的功能最为完善。在情景交互层面,Alexa能够实现全流程的语音深度交互,语音交互具备上下文关联能力,且很好的识别、播放每一类需求;Siri虽然回应其无法查阅推文,但其在某些语境下(如推特热点),仍能调用正确推特的功能。在功能上,Alexa除了能够正常的调用推文的阅读需求,还在语义分析上做了多维度细分,如最近Like的推文、最近被提及的推文、最近发送的推文等等。

总结:在信息功能方面,Siri的表现最为优秀,不仅在于功能覆盖的广度,还在于其语音全流程深度交互,这也得益于手机设备内置的短息功能的整合与打通;谷歌助理与先前一致,在能够实现的短息功能方面表现的很好,但功能覆盖度仍有所欠缺;Cortana在语音交互上稍微逊色,同时,在语音识别的问题上,存在较大的错误率。Alexa虽然不具备短息功能,但在第三方推特功能的整合和实现上十分优秀,还进行了深度的语义区分,满足各类需求。

测试4:系统基本功能     表4 系统基本功能测试结果

测试的基本功能包括:应用(App)的开启、系统设备、闹钟设置、备忘录建立与修改、锁屏等设备自带的系统功能。

经过测试,Siri与Alexa在各自系统功能的交互与功能调用最强。首先,在情景交互层面,四类智能虚拟助理在能够识别和支撑的语义的条件下,基本都能正常打开系统应用能够,但Alexa在部分系统功能的调用上,设置了深度交互的功能(如设置系统时间时,Alexa会咨询具体情况,而非直接调用时间设置功能)。在功能的智能实现上,Siri与Alexa能够覆盖的功能最为广泛;谷歌助理和Cortana有许多系统功能无法调用,尤其是谷歌助理,甚至连Google下的chrome都无法调用。

测试5:翻译场景     表5 翻译功能测试结果

经过测试,仅有谷歌助理与Cortana具备跨语种翻译的功能。在情景交互层面,谷歌助理和Cortana均能实现翻译的需求,并通过语音回复翻译需求。从功能智能度的层面来看,谷歌助理无论是对语义的理解还是语法的理解都远强于Cortana,虽然并未直接调用谷歌翻译,但鉴于谷歌助理较强的翻译功能,可以推断谷歌助理在翻译功能上整合了谷歌翻译的功能。

测试6:基本知识场景     表6 基础知识场景测试结果

1、基本知识:面对基本知识语音问题处理最佳的是Alexa。首先在情景交互层面,四类智能虚拟助理在能够理解的范围内,都能实现正常的交互以及应答。但在功能的智能度方面,Alexa所覆盖的知识库最为全面,并且能够准确的回答问题;谷歌助理,Siri,Cortana的知识库都有各自的局限,其中谷歌助理的功能能够识别的基本知识问题最为局限;面对无法解答的基本知识时,都会调用其相应的搜索引擎。

2、新闻:新闻方面的交互和功能实现谷歌助理处理的最好。在情景交互方面,谷歌助理、Cortana和Alexa均能很好的识别用户的新闻需求问题,并将正确的查询结果返回。在智能化方面,各智能虚拟助理均能实现语义的精准匹配新闻内容(依赖搜索引擎);但从第三方整合来看,谷歌助理支持的新闻搜索范围最广。

总结:在基础知识问题的解决方面,Alexa对应的知识库最为广泛,能够识别不同领域的基础知识问题,并精准搜索给出答案;同时也体现了Amazon在基础知识库搭建上下了较重的功夫;而谷歌助理、Siri、Cortana在基础知识的语义理解上时常存在一定偏差,给出的结果未必准确。在新闻话题方面,谷歌助理仍是保持其精品化的特征,相比其他智能虚拟助理,谷歌助理在新闻话题整合了大量的第三方新闻媒体作为信息源,很好的提升了用户体验。

测试7:体育场景     图7 体育场景测试结果

1、查询当前赛况(比分):谷歌助理、Siri和Alexa都能很好的完成该项任务。在情景交互层面,能够正常识别语音并返回结果。在功能的智能化层面,能够精准定位棒球比赛,并对棒球各类比赛进行细分,寻找当前赛事的实时比分。

2、查询比赛赛程与球队现状:四类助理在比赛赛程的查询上均表现很好,但都不具备该话题深度交互的能力,最糟的是,除了谷歌助理,其他助理均无法识别“scorer”的语义,词库完善度还有待提升。

3、查询赛季冠军:四类助理对于足球赛事的识别能力都较弱,无法正确关联“获胜者”与“英超赛事”。

总结:谷歌助理、Siri、Alexa在篮球与棒球的体育话题表现较好,基本可以准确查询赛程和赛况,但体育话题的深度交互上,存在一定的上下文关联问题;Cortana在赛况的标签不如另外三者,证明其对体育赛事的实时性支撑还有待提升。值得注意的是,四类智能虚拟助理在足球赛事的表现都较弱,这可能与美国地区更偏好篮球和棒球相关(四类助理均由美国开发)。

测试8:音乐场景     表8 音乐场景测试结果

1、播放指定歌曲:所有的智能虚拟助理都能识别音乐播放需求,并调用音乐媒体播放,但谷歌和Alexa支撑使用的媒体更为丰富。另外,值得一提的是Alexa是唯一一款具备交互播放器设置的助理。

2、播放新音乐:仅有Alexa对“新音乐”的语义理解较为正确,能够自动扫描并播放最近添加的新音乐。虽然与测试预期不一致(主要原因在于开发者对新音乐与测试者理解的不一致性),但相比其他助理错误的语义理解,已好出许多。

3、识别外播放器歌曲:Siri与Cortana在识别以及深度交互处理得较好。在智能化功能层面,Siri,Cortana和Alexa均能通过外播放器的音乐,语音识别成歌曲。然而,仅有Siri和Cortana具备进一步情景交互的能力,帮助用户搜索歌曲并交互确认是否播放。

总结:Alexa在音乐主题整体表现的较高,主要表现在语义理解以及交互功能的完整性上。Siri和Cortana整体功能也较为完善,但在语义理解方面稍有不足。谷歌助理在音乐主题上,表现并不理想,优势在于其整合的第三方音乐流媒体最为丰富。

测试9:天气场景     图9 天气场景测试结果

1、天气预报:谷歌助理与Cortana在天气预报的功能最为完善。在情景交互层面,四类助理都能交互并预测具体某一天的天气,但在信息回复上,Siri无法实现完全语音的交互。在智能化上,仅有谷歌助理和Cortana能够实现上下文语法的关联,支撑深度的交互。

2、天气查询:谷歌助理在天气查询的功能上最为完善。在智能化方面,谷歌助理,Siri以及Alexa都能实现语义的深度理解,能够从带伞映射到天气情况;但在天气预报方面,只有谷歌助理能够实现精准的天气预报,Siri与Alexa只能问官答官。在情景感知方面,三者基本一致,能够通过语音进行交互,并正常播报相关天气信息。

总结:谷歌助理在天气场景的处理能力最强,尤其在于其语义分析的能力,不仅能够很好的实现上下文关联,给出语音回复,还能够对一些语义下的问题进行延伸。Alexa的语义分析能力引导的智能化功能稍弱于谷歌,但基本功能都能实现。Siri在智能化以及情景交互能力,都弱与谷歌助理。Cortana则有一些极端,在天气预报场景效果与谷歌助理基本一致,但在天气查询话题上,由于无法关联其“带伞”与天气的关系导致无法识别此类问题。

测试10:日程场景     表10 日程场景

1、日程查询:四款助理均能较好的实现日常的查询,但只有Siri做到了上下文的关联,能够基于已有语境,进行深度的日程交互查询。

2、日程安排修订:Siri日程修订方面表现的最佳。在情景交互层面,Siri,谷歌助理以及Alexa都实现了语音的深度交互(Cortana需要依赖触碰选择)。但在功能智能度方面,Siri和Cortana才能实现添加与删除的功能均能支撑。值得注意的是,Siri甚至还能从日程场景识别姓名,关联到用户的通讯录。

总结:Siri在日程场景的智能度,以及功能完善性最为优秀,这需要再次得益于Siri作为苹果手机厂商开发的优势,能够很好的整合设备内部,由苹果开发的其他功能。Cortana基本能够实现日程功能,但在语音交互层面稍微弱于Siri。谷歌助理与Alexa在日程场景则表现一般,部分功能无法实现。

测试11:生活服务场景     表11 生活服务场景测试

1、周边事件:Cortana和Alexa都能较好的实现周边事件的发掘,并调用相关信息,通过信息选择,可以进一步查看相关活动信息。谷歌助理与Siri则表现得较弱。

2、周边餐厅:Siri在周边餐厅功能方面作为较为完善。在智能化层面,Siri除了能够实现另外三款的周边餐厅信息查阅的功能外,还支持餐厅预定、餐厅评价参考、更多餐厅选择等功能,对应的情景交互功能也更加丰富。

3、周边住宿:只有Siri能够很好的完成周边住宿问题的回复。Siri不仅支持周边酒店的信息查阅,还支持酒店预定,酒店当前状态确认(是否可预定)等功能,并且在情景交互层面,都具备较好的语义与触碰的互动,完成全流程的功能实现。

总结:Siri在明确指向的生活服务,具备很强的功能完整性及交互性,同时,也需要注意的是,Siri在生活服务方面,整合了大量的第三方应用来实现其功能。相比之下,Cortana和Alexa在非指向性的生活服务功能表现得较好,另外也可以发现,Cortana调用Bing搜索时,有时也经过了一定的语义理解与翻译。

最后总结

结合以上十一类场景的测试结果,TalkingData对四类智能虚拟助手进行综合评估。下表为谷歌助理、Siri、Cortana、Alexa面对11类话题,在情景交互、智能度以及功能完整度的总体评估。

表12 各款智能虚拟助理得分

可以看见,谷歌助理与Siri的在场景的取胜次数,以及得分次数基本一致。值得注意的是,Alexa紧随其后,甚至在某些话题上超过了谷歌助理和Siri,Cortana的功能覆盖度较弱,仍有较大提升空间。

谷歌助理:

在已实现并已整合谷歌其他应用的测试场景中,谷歌助理表现得极为优秀,尤其在深度语义理解,会稍强于其他虚拟助手。但可以发现,谷歌助理的功能覆盖度并非十分齐全,问题主要出现在对其他应用的整合上;尚且不提及对第三方应用,谷歌助理还有许多谷歌体系内的应用功能都未能整合完全。相信随着对更多应用的整合,谷歌助理的功能将更加强大与完善。

Siri:

Siri在已实现的功能模块,标签得也极为出色。虽然在个别场景的深度语义理解上稍弱于谷歌助理,但基于语义理解后的功能模块,比其他智能虚拟助理要更纵深一些,这归功于对第三方应用的整合以及整合后的功能调用。另外,值得一提的是,得益于手机厂商的优势,Siri在手机基本功能、系统功能的智能实现度都强于其他智能虚拟助理。第三方应用的接入,也将助理Siri功能完善度更上一层。

Cortana:

相比其他三款智能虚拟助理,Cortana就稍显逊色,一是智能知识库建立的不完善,很多语义无法理解,只能直接调用Bing搜索处理;二是在能够实现功能的纵深度上,也不及其他智能虚拟助理。Cortana作为一款智能虚拟助理,还有很长的路要走,包括语义知识库的建立,以及功能的建设,第三方应用的整合等等。

Alexa:

Alexa的生态最为开放,大多数功能都依赖于第三方插件的,未来在功能完善度上,Alexa有极大的空间。但值得注意的是,Alexa虽然在特定场景能够准确的调用第三方插件,但在第三方插件的功能整合上,会稍弱于Siri,在出行以及生活服务场景这个特点尤为明显;在语义的深度分析上,也稍弱于谷歌助理。未来Alexa的发展,如果能强化其语义深度分析能力,并提升第三方插件在功能模块的整合,相信Alexa将成优秀的智能虚拟助理。

总体来说,TalkingData认为智能虚拟助理发展的核心在于以下三点:

  1. 交互层的情景感知:语音智能助理需要能够对大量非结构化的语音进行识别,并基于其AI网络进行响应。交互层的网络深度,同样也决定了智能助理功能的完整性,尤其是在基于已有交互的深层次交互。

  2. 知识库的构建:知识库的规模和类型决定了智能助理能够响应的场景以及在各场景能够决策响应的颗粒度。其提供的大量分类的数据集,将作为情感交互层学习的重要输入。

  3. 应用能力的整合:智能助理的功能主要用户交互,但功能的进一步实现需要通过其他应用实现。这要求智能助理能够很好地与第一方其他应用或其他第三方应用进行整合,才能确保智能助理实际场景化的应用。

那么问题来了,对于这四大AI虚拟助手,你更看好?

今日荐号
StuQ

InfoQ推出的IT教育平台——斯达克学院(StuQ ) 为技术人提供系统实战课程 学习微服务,机器学习,iOS开发最潮流技术 回复“课程”获得热门课程介绍和优惠码

微信ID:stuq2015

今日荐文

点击下方图片即可阅读

微信高并发资金交易系统设计方案——百亿红包背后的技术支撑


 
InfoQ 更多文章 管理与技术未必不可兼得,一个20年IT老兵的码农生涯 微信高并发资金交易系统设计方案——百亿红包背后的技术支撑 情人节,送你程序员专属的5条锦囊! 万亿级日志与行为数据存储查询技术剖析 禁用Python的GC机制后,Instagram性能提升10%
猜您喜欢 超级创业大师:品牌推广的艺术 品品Unikernel与Container容器技术 突发的感悟 android TV Metro应用 七牛资深前端工程师马逸清:前端测试探索实践