微信号:infoqchina

介绍:有内容的技术社区媒体

推广|“所见即所得”:讲述电商图像搜索技术的前世今生

2015-12-23 08:15 InfoQ
半个世纪前人工智能大师马文·闵斯基说的“所见即所得”的理念,现在用手机淘宝这个神器就能做到了……

这是图灵奖的获得者,人工智能大师马文·闵斯基在上个世纪60年代说的:




“把电视镜头和计算机连接起来,诞生一个所见即所得的东西”……

等于是我们今天说的预言帝……


先从近日的两个奖项说起:一个是美国计算机协会(ACM)公布的2015年度杰出科学家名单,在上榜的两位亚裔学者中,阿里巴巴图像搜索的领军人物、阿里巴巴搜索事业部研究员华先胜位列其中。


与此同时,国际电气与电子工程师协会(IEEE)也公布了华先胜当选2016年度IEEE Fellow(IEEE会士)的消息,以嘉奖其“为多媒体内容分析和图像搜索做出的突出贡献”。


两大奖项的背后,不仅意味着阿里图像搜索技术已经获得国际最顶尖学术圈的认同,也让“拍立淘”这一阿里搜索“大杀器”再次获得关注。


无论是在杂志电视上,还是身边街头,看到一件心仪的商品,可能难以用文字描述,却可以拍成照片,上传到手淘的“拍立淘”找同款在“拍立淘”背后默默发挥作用的,就是图片搜索这一可视化搜索方式。


数据显示,华先胜与同事们推出的“拍立淘”等王牌产品,正在被越来越多的手淘用户使用和喜爱:2015年双11当天,千万消费者使用“拍立淘”购买了数千万元的商品。而拍立淘所覆盖的类目范畴,已经从最开始的女装,发展到目前的男女装、鞋包、配饰、食品、数码、家居、日用百货、内衣、瓶饮等十余个类目。




与通用搜索主要依靠字节不同,图像搜索被主要定义为 “以图搜图”。主要分为“图像理解”和“图像搜索”两步:




图像搜索的第一步是训练计算机进行图像理解,也就是通过计算机将图片中的要素,包括人像、颜色、纹理等具体特征以及深度学习产生的图像描述,转化为类似文字的“视觉词”,编成索引之后,才能再进行第二步——图像搜索。




从20世纪90年代开始,国际上就开始了对图像搜索的研究,但直到2008年前后,计算机开始能够处理大量图像,图像搜索技术才得以突飞猛进的发展。


2008年,还在微软亚洲研究院工作的华先胜,就因在图像和视频搜索方面的尝试,获得了由《麻省理工学院技术评论》颁发的“全球35位35岁以下的杰出青年创新人物(MIT TR35)奖”。


评委会在颁奖词中写道:“有效的基于内容的视频搜索仍然还有很多困难没有解决。而华先胜希望通过自动识别图像和视频中物体、场景、事件和其他语义特征来攻克这个壁垒。”



(这位有点宅萌的就是华立胜老师本人)


但当时能解决的,也仅仅是同图和近似图片的搜索,图像搜索仍有很多未知领域有待探索。在华先胜看来,能推动图像搜索下一步突破的关键有三点:深度学习大数据分析大量用户使用反馈。谷歌等公司虽然擅长通用搜索,但图像搜索方面缺乏“刚性”的应用场景,无法积累大量真实的数据和用户。


环顾国内外,似乎只有阿里巴巴能够同时具备这三个条件。


“电商平台是图像技术最具用户‘刚需’的应用场景,特别是以图搜图技术,目前只有电商场景才可以实实在在地产生可观的实际价值,而从另一个角度看,电商平台上大量的用户也是正是推动图像技术发展和应用的基础。”华先胜表示,阿里得天独厚的平台优势是吸引他从美国回来,加入阿里搜索团队的重要原因。


作为行业的翘楚人物,华先胜另一项为业界瞩目的成绩,就是设计并实现了不需要“人工标注训练数据”就能产生识别任意目标的图像识别系统。


“之前,图像识别需要要人工去给图像贴标签(Label),让计算机从这些数据中学习出识别模型,但我们提升了一步,训练计算机自己去找数据,建立自动识别的模型。比如要识别和搜索不同种类的花卉,不用标注900多种花卉的图片,而是直接输入花卉的名称列表,计算机就可以自行去网上找数据、进行清洗、补充、学习,然后就能进行图像识别了。”


华先胜介绍,这一技术可以适用于多种场景的图像搜索,比如明星脸识别,不用输入“赵薇”的照片,计算机可以从网上自动学习辨认。




10月27号,在澳大利亚举行的国际顶尖多媒体学术会议ACM Multimedia 2015上,华先胜代表阿里的图像搜索团队,向在场几百名与会专家分享了“拍立淘”和虚拟化妆等电商应用,引起在场同行惊叹。对此,华先胜感叹说,“普通用户会觉得好玩,但圈内人会知道我们目前做的一切,包括‘拍立淘’准确度的提升多么难得,有多大的含金量。”


随着近年来深度学习技术在图像分析和识别领域的广泛应用,图像的描述(特征)有了非常大的进步,而阿里的大量商品图像数据和用户数据,包括用户使用反馈数据的挖掘和回流,也使得电商平台搜索结果的相关性不断提升,“拍立淘”的用户UV在过去半年内猛增了两倍多。


对此,也有分析人士表示,借助图像搜索技术的领先,阿里搜索极有可能在视觉时代实现“弯道超车”。


从智能到更智能,阿里的团队还在继续向图像搜索的“地心”推进比如,同样一件外套,无论是挂在屋内的衣架上,还是在郊外穿在模特身上,“拍立淘”都可以把它相当准确地识别出来。


接下来包括任意图像的语义相同或相似图的检索,也是华先胜搜索团队希望下一步攻克的课题:因为用户在用“拍立淘”时拍什么都有可能,可能不是商品,可能是任何物品和场景,如何准确识别、并返回对用户有价值的信息?




根据手淘数据显示,在“拍立淘”用户中,90后占比高达55.1%,远高于无线搜索的该年龄段整体用户占比——年轻人显然更中意“以图搜图”这种看上去很“潮”的搜索方式。




实际上,拍立淘未来还有很多种玩法:比如,拍件衣服,拍立淘可以推荐与之搭配的服饰;输入家具的照片,拍立淘可以配套其它家具及家饰;包括AR(虚拟现实)方式,拍立淘可以实时展现摄像头前物品对应的商品及信息……




除了拍立淘,华先胜还举了这样一个运用到图像搜索技术的例子:淘宝店铺中的很多“大码”服装,由很骨感的模特试穿,这样很可能会影响到用户的试穿体验,但阿里搜索的图像识别系统,目前就能把”微胖“的模特作展示的店铺排在前面,让商品信息对消费者更有参考价值。




“图像搜索就像电商中的水电煤,有的产品,像‘拍立淘’是可以被用户感知的,有些技术演进则是藏在应用和服务背后,默默为大家服务。”


华先胜介绍说,其实电商平台上处处都有图像技术的需求,从商品图片的分析理解、商品识别、商品属性识别、场景识别,到人脸检测(试妆)、人脸属性(年龄、性别、颜值等)、人脸识别(如明星识别)、人脸合成(试衣)等,甚至视频分割、事件检测、物品检测跟踪、广告投放等,都离不开图片技术。可以说,图像技术正被应用于商品推荐、个性化、商品管理以及其他搜索的方方面面。




对于“拍立淘”的未来,华先胜表示,拍立淘将会拓展到更多领域,力争成为人们获取信息(包括购物、教育、娱乐、新闻、知识等等)的一个快捷、有趣、有效的入口,而不仅仅是搜寻商品的入口。“希望在未来,通过拍照或者相机镜头扫描动作会成为人们获取信息的一种习惯。”


看来在未来,大师们在半个世界之前说所的“所见即所得”,真的有可能随着图像搜索的发展,成为人们获取信息的常态。


所以现在,准备好让“拍立淘”成为你的搜索框了吗?


 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 2016软件新趋势:物联网框架/开发占据主流 java面向对象的六大原则 你们是最帅的! 论坛┃中国互联网协会李国斌:“互联网+”时代,政府应从管理者转为服务者 京东618备战技术分享:保障秒杀系统高并发与高性能的11个方法