微信号:infoqchina

介绍:有内容的技术社区媒体

【热点】余凯谈百度大脑与深度学习最新发展

2014-09-16 10:20 崔康

在最近举行的百度世界2014大会大数据论坛上,百度深度学习实验室主任余凯分享了百度大脑和深度学习的最新发展,由此可以看出对未来产业的影响。


与传统的观念不同,余凯认为,百度从它诞生的第一天开始它就是一个人工智能公司:


一方面我们通过搜索引擎满足用户每天的搜索请求,产生大量的用户数据。另一方面我们提供价值,连接人和广告,让千千万万的商家能够找到他的顾客资源,这种从数据到价值之间有一个桥梁,这个桥梁在百度就是基于百度大数据人工智能,包括机器学习,自然语言理解、语音识别,图象识别等方方面面的技术,使得百度能够把大量的海量数据转化成用户价值和商业价值。


余凯指出,深度学习是人工智能取得最突破性的进展并且迅速在工业界产生影响的一个极为成功的例子。同样这也是麻省理工学院科技评论杂志将深度学习技术列为2013年度十大突破性技术之首的原因,这个最初来自学术界的研究成果影响到各大高科技公司的速度和广度是非常罕见的。


机器学习在过去30多年的时间里大致分为两个阶段,第一个阶段是浅层学习。第二个阶段从2006年开始进行更深层的学习。深度学习最吸引大家的一个原因在于它在很大程度上模拟了人脑神经网络的结构和行为,这里面的细节不多讲,但是就我们目前所知道的比如说对于图象的处理,我们通过训练得到的深度卷积网络,跟我们目前所知道的对人的视觉皮层神经元的行为有惊人的类似,我们同样发现人对听觉感知也有类似的情况。


谈到百度大脑的最新发展,余凯表示,经过过去一年多的时间,它经历了一个高速发展的阶段。


百度过去在大数据处理技术方面的积累,通过这种能力我们才能更好的开发各种不同的深度学习模型,应用于图像识别,语音识别、网页搜索,和广告推荐技术等等。


百度大脑如何让连接更智能?余凯解释说,首先人来到百度这个平台,表达他的搜索需求,这个搜索需求有可能是关键词,有可能是一段话,有可能是拍个照片,就要靠百度大脑来识别用户的意图,在精确识别用户搜索意图后,我们用深度学习来对网页语义相关性排序,从而匹配用户需求,这就完成了人与信息的连接。另一方面是连接人与广告和服务,我们通过大规模的深度学习,去估计和优化点击率和转化率,进而把人连接到所需要的广告和服务。我们的深度学习已经用在百度核心业务的方方面面,真正实现智能连接人和信息,智能连接人和服务。


深入百度大脑,我们开发了一种叫深度语义神经网络的模型,它是百度大脑用于自然语言的一个成功案例,目的在于匹配query和网页的语义相关性,这是业界第一次把深度学习成功应用于提升搜索引擎的排序,也是迄今为止深度学习用于语言文本信息最成功的例子。另外,我们的凤巢广告系统,它背后基于机器学习的点击率预估模型,从第一代浅层的机器学习模型,已经过度到到用更复杂的模型、更深的模型的深度学习时代。


大数据为人工智能带来何种影响? 余凯表示,大数据实际上给深度学习给人工智能带来很大的机会。但如何处理大数据、如何获得大知识、给我们带来了新的技术挑战。怎么样去处理?


作为世界上最早大规模的利用GPU做深度学习的高科技公司,我们通过各种各样的数据并行,模型并行去处理这些海量数据。我们还可以支持生成、配置针对不同的应用、不同的场景和不一样的网络结构。


整体来说,模式发生了变化,服务离现实世界越来越近:


我们以前是获取互联网信息,然后做搜索做广告,所有一切都是在虚拟世界完成。但是现在所有的服务离现实世界越来越近,离人越来越近,所以我们通过自然交互,通过穿戴式,了解人的需求,另外物理世界的信息,比如商店、场景、街道、天气等等,都跟我们推送的服务的相关性息息相关,我们现在需要通过智能感知技术获取人和场景的信息,才能推荐更加相关的服务。还有,我们看服务的执行阶段,以前互联网上完成一个预测,做出一个决策,之后是由人去执行,从而完成整个互联网服务环节。未来的互联网服务,需要机器,或者说机器人,自动的完成这服务的最后一公里。比如说某一个人想吃披萨,在网上下单后,一般是要由人来完成制作披萨,然后递送到家的。但是,这个体验不一定最好,因为如果机器知道个性化的口味需求,能千人千面的私人定制这个披萨,而且,自动驾驶能更高效便捷的将披萨送到家里。所以说,互联网的人工智能一定会从数字世界的智能延伸到物理世界的智能,机器人是大势所趋。


最后,余凯特别提到了自动驾驶项目,它需要建立感知能力,决策能力,还有不断自主学习的能力,可以说是人工智能技术的集大成者。从这里的画面可以看到,我们的团队是非常精神饱满的去做这个项目,不光是硬件,我们需要算法做各种条件下面的路面目标检测,比如车和行人,我们还需用OCR技术识别交通标志,还有集成配准各种传感器的信息,形成统一的路况感知。


 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 浅谈算法和数据结构(4):快速排序 使用Jekyll+GitHub搭建自己的免费静态博客 你可能不知道的10款Android开发辅助工具 硅谷之父:如果有一天你来到硅谷,逛哪儿? 遗传算法的matlab实现