微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

顾险峰:当人工神经网络遇上脑科学

2016-04-13 08:31 大数据实验室

首先感谢SME组织本次交流分享活动。这次的分享主要内容是根据我的《人工智能中的联结主义和符号主义》这篇文章整合而成。

 

感谢南加州大学的Paul Thompson教授、俄亥俄大学的Zhong-Lin Lv教授、密苏里大学Judith Miles教授、Ye Duan教授、亚利桑那州立大学的Yalin Wang教授香港中文大学Ronald Lui教授以及吴文俊先生的高足高小山研究院的支持。

 

前段时间谷歌的机器人AlphaGo以4:1击败了李世石,引起了全社会的讨论。有人认为技术奇点即将来临,也有人对此不以为然。有人认为这是人工智能一次质的飞跃,也有人认为这只是一次量变。我们这次演讲会回顾一下人工智能发展的历史,并与脑科学发展历史相互映照,并对未来做一些预测。

 

人类的智能主要包括归纳总结和逻辑演绎,对应着人工智能中的联结主义(如人工神经网络)和符号主义(如吴文俊方法)。人类大量的视觉听觉信号的感知处理都是下意识的,基于大脑皮层神经网络的学习方法;大量的数学推导,定理证明是有强烈主观意识的,是基于公理系统的符号演算方法。

 


联结主义





David Hunter Hubel和TorsenWiesel最早进行视觉的研究。他们把猫麻醉之后,在其头部插入了很多微电极。然后在猫的眼前投影各种简单模式,观察猫的视觉神经元的反映。他们发现神经元可以分为高级神经元和低级神经元。猫的视觉中枢中有些神经元对于某种方向的直线敏感,另外一些神经元对于另外一种方向的直线敏感;某些初等的神经元对于简单模式敏感,另外一些高级的神经元对于复杂模式敏感,并且其敏感度和复杂模式的位置与定向无关。这证明了视觉中枢系统具有由简单模式构成复杂模式的功能。这也启发了计算机科学家发明了人工神经网络。


 

后来,通过对猴子的视觉中枢的解剖,将猴子的大脑皮层曲面平展在手术台表面上,人们发现从视网膜到第一级视觉中枢的大脑皮层曲面的映射是保角映射。保角变换的最大特点是局部保持形状,但是忽略面积大小。这说明视觉处理对于局部形状非常敏感。

 


现在我们有很好的方法可以测量这个映射。研究表面,这个映射是在人的幼年时期形成的,如果这个映射发生损伤,将对人类视觉造成很大的伤害。

 

人们逐步发现,人类具有多个视觉中枢,并且这些视觉中枢是阶梯级联,具有层次结构。人类的视觉计算是一个非常复杂的过程。如下图所示,在大脑皮层上有多个视觉功能区域(v1至v5等),低级区域的输出成为高级区域的输入。低级区域识别图像中像素级别的局部的特征,例如边缘折角结构,高级区域将低级特征组合成全局特征,形成复杂的模式,模式的抽象程度逐渐提高,直至语义级别。后来这种猜想在深度学习领域得到一定的验证。

 


毕加索的名画格尔尼卡(Guernica)中充满了抽象的牛头马面,痛苦嚎哭的人脸,扭曲破碎的肢体。我们可以毫不费力地辨认出这些夸张的几何形体。其实,图中大量信息丢失,但是提供了足够的整体模式。由此可见,视觉高级中枢忽略色彩、纹理、光照等局部细节,侧重整体模式匹配和上下文关系,并可以主动补充大量缺失信息。

 


最近,深度学习技术的发展,使得人们能够模拟视觉中枢的层级结构,考察每一级神经网络形成的概念。图4显示了一个用于人脸识别的人工神经网络经过训练后习得的各层特征。底层网络总结出各种边缘结构,中层网络归纳出眼睛,鼻子,嘴巴等局部特征,高层网络将局部特征组合,得到各种人脸特征。这样,人工神经网络佐证了视觉中枢的层次特征结构。

 

专用和通用

 

人工神经网络在20世纪80年代末和90年代初达到巅峰,随后迅速衰落,其中一个重要原因是因为深度神经网络的发展严重受挫。人们发现,如果网络的层数加深,那么最终网络的输出结果对于初始几层的参数影响微乎其微,整个网络的训练过程无法保证收敛。

 

人们发现大脑具有不同的功能区域,每个区域专门负责同一类的任务,例如视觉图像识别,语音信号处理和文字处理等等。并且在不同的个体上,这些功能中枢在大脑皮层上的位置大致相同。在这一阶段,计算机科学家为不同的任务发展出不同的算法。例如,为了语音识别,人们发展了隐马尔科夫链模型;为了人脸识别,发展了Gaber滤波器,SIFT特征提取算子,马尔科夫随机场的图模型。因此,在这个阶段,人们倾向于发展专用算法。

 


脑神经科学的几个突破性进展使人们彻底改变了看法。人们发现大脑并不是一个各种专业算法的集合,而是只有一个通用算法。算法的功能取决于后天的学习。2000年左右,Jitendra Sharma在《自然》上撰文,汇报了他们的一个令人耳目一新的实验。Sharma把幼年鼬鼠的视觉神经和听觉神经剪断,交换后接合,眼睛接到了听觉中枢,耳朵接到了视觉中枢。鼬鼠长大后,依然发展出了视觉和听觉。这意味着大脑中视觉和听觉的计算方法是通用的。

 

2009年,Vuillerme和Cuisinier为盲人发明了一套装置,将摄像机的输出表示成二维微电极矩阵,放在舌头表面。盲人经过一段时间的学习训练,可以用舌头“看到”障碍物。在2011年,人们发现许多盲人独自发展出一套“声纳”技术,他们可以通过回声来探测并规避大的障碍物。Thaler等研究表明,他们“声纳”技术采用的并不是听觉中枢,而是原来被废置的视觉中枢。

 

种种研究表明,大脑实际上是一台“万用学习机器”(universal learning machine),同样的学习机制可以用于完全不同的的应用(图5)。人类的DNA并不提供各种用途的算法,而只提供基本的普适的学习机制,人的思维功能主要是依赖于学习所得。后天的文化和环境决定了一个人的思想和能力。换句话而言,学习的机制人人相同,但是学习的内容决定了人的mind。


大脑的可塑性

 

人的大脑具有极强的可塑性,许多功能取决于后天的训练。例如,不同民族语言具有不同的元音和辅音,阿拉伯语最为复杂,日语相对简单。出生不久的婴儿可以辨别听出人类能够发出的所有元音和辅音。但是在五岁左右,日本幼儿已经听不出很多阿拉伯语中的音素了。同样,欧洲人可以非常容易地辨认本民族面孔,但是非常容易混淆亚洲人面孔。人们发现,如果大脑某个半球的一个区域受损,产生功能障碍。依随时间流逝,另一半球的对称区域会“接替”受损区域,掌管相应功能。另外,长期训练某一项技能,负责该技能的大脑区域也会随之扩大。这些都表明大脑神经网具有强烈的可塑性。

 

长期以来,人们倾向于认为大脑神经元网络依随学习和训练,其联结复杂度逐渐增加,愈来愈多的联结建立起来。近期,一些神经科学家提出了相反的看法。他们观察到,婴儿睡觉时,如果有剪刀掉到地上,婴儿的应激反应是全身的,而相对成熟的儿童的应激反应只集中在局部肌肉上面。他们找到一些证据表明,婴儿的某些神经网络是全联通图,依随年龄的增长和学习训练的积累,许多神经联结会自行断开,从而形成简化的网络。这和深度学习中,Hinton提出的Dropout算法异曲同工。

 

大脑学习算法的普适性和可塑性一直激励着计算机科学家不懈地努力探索。历史性的突破发生在2006年左右。三位计算机科学家,Geoffrey Hinton,YannLeCun 和 Yoshua Bengio突破了深度学习的技术瓶颈,引领了深度学习的浪潮。

 

相比于以前的状况,主要的技术突破在于以下几点:


一是优化方法的改进,更加简单有效的优化方法,特别是随机梯度下降方法的应用;

二是使用非监督数据来训练模型以达到特征自动提取,改进网络初始权重;

三是使用越来越大的数据集;

四是深度神经网络和大数据训练需要巨大的计算能力,GPU 的普遍使用解决了这一迫切要求。

 

现在,深度学习方法突飞猛进,在图像识别(Image Registration),文本处理(Text ),语音处理(Speech)等领域的基本问题上,都已经超过了传统方法。在图像识别领域,2012年Hinton和他的两位学生赢得了ImageNet比赛,错误率为15%,第二名用支持向量集方法,错误率为26%。 2015年,微软亚洲研究院的深度学习方法的识别准确率已经超过人类的水平。

 

梦的解析

 

同时,对于深度学习神经网络的理解加深了人类对于自身智力活动的理解。长期以来,人们对于梦境一直没有很好的理解。一直解释观点如下,如图所示,大脑中有一对海马体,它们和人类的长期记忆有关。如果把大脑比喻成一个数据库,那么海马体就像是索引。如果海马体有问题,那么许多存入的记忆无法被取出,同时也无法形成新的记忆。每天晚上,海马体将当天形成短暂记忆加工成长期记忆,在这一过程中,就形成了梦。海马体和其他神经中枢相连,处理其它中枢已经处理好的数据,形成新的编码。海马体和视觉和听觉中枢直接相连,因此,在梦中能够看到并且听到;但是,海马体和嗅觉中枢并不相连,因此,在梦中无法闻到气味。我们在梦中经常能够看到平时看不到的奇诡景象,可以用深度学习的方法加以模拟解释。

 

海马体


实际上,视觉处理的过程并不只是从低级向高级传递的单向过程,高级中枢可以向低级中枢发出反馈信息,最为明显的例子是高级中枢可以决定低级中枢的“注意力”和“焦点”。当看到模糊不清的图像,或者一时无法辨认的图像时,高级中枢会产生各种概率上合理的解释,并且由这种猜测先入为主地影响低层中枢的判断,从而产生错觉。如下图所示,可以用深度学习的神经网络来模拟这种先入为主的现象。输入是一幅白噪声,本身没有任何有意义的信息。网络由于随机涨落,在某一刹那倾向认为图中有香蕉。由此,优化这幅图像,使得识别香蕉的高层神经元兴奋,如此得到的图像果真看起来像香蕉。

 


下图显示了一个例子,这里输入的是一幅羚羊图像。神经网络的低级反馈加到图像上,看到许多边缘和定向的模式出现在场景里。

 


许多孩子喜欢仰望蓝天白云,并且用自己丰富的想象力看到了各种奇妙的幻象。如图9所示,将一幅蓝天白云的图像作为输入,用一个识别动物的深度学习神经网络加以处理,将高层神经元的认知模式作为反馈,来优化原始图像,结果可以看到各种山海经中才会出现的神兽:身着铠甲的将军狗,猪蜗牛,骆驼鸟,狗鱼。人在做梦时,高层神经元对于低层神经元发出各种反馈,低层神经元将图像依照高层的意图进行诠释幻化,视觉幻象由此产生。

 

白云苍狗的机器学习解释


美学

 

很久以来,人们倾向于认为机器可以理解人类的逻辑思维,但却无法理解人类的丰富感情,更无法理解人类的美学价值,当然机器也就无法产生具有美学价值的作品。事实胜于雄辩,AlphaGo对局李世石下出石破天惊的一步,棋圣聂卫平先生向AlphaGo的下法脱帽致敬,这说明深度学习算法已经能够自发创造美学价值。许多棋手在棋盘方寸间纵横一生,所追寻的就是美轮美奂的神机妙手。如此深邃优美,玄奥抽象,一夜间变成了枯燥平淡的神经元参数,这令许多人心生幻灭。







神经网络能够自动学习艺术风格,并用不同的风格渲染同样的内容。


这意味着人工神经网络可以精确量化原本许多人文科学中模糊含混的概念,例如特定领域中的”“艺术风格”,博弈中的“棋风”,并且使这些只可意会,无法言传的技巧风格变得朴实无华,容易复制和推广。

 

大脑形态研究

 

这是我们最近做的一项研究。我们想看看大脑的几何形状和智商是否有关。我们用核磁共振技术扫描了很多人的大脑,通过核磁共振图像来复制大脑曲面。再用几何聚类的技术对这些大脑进行分类。通过比较我们发现,大脑的几何形状与智商水平具有相关性。


总结


虽然人工智能取得了突破性进展,但是他还是在婴幼儿时期。

联结主义的方法虽然摧枯拉朽,无坚不摧,但是依然没有坚实的理论基础。通过仿生学和经验积累得到的突破,依然无法透彻理解和预测。简单的神经网络学习机制加上机器蛮力,能否真正从量变到质变,这需要时间检验。

与人类智力相比,符号主义的方法依然处于幼稚原始的阶段。


(来源:SME





第九届(2016春季)中国量化投资国际峰会——高级研修班

2016年4月22-24日,上海


国际名校专家师资团队
博士教授海归领衔授课
六大量化核心课程体系
华尔街金融实战案例教学


咨询电话/微信:13061694649


 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 R语言解读多元线性回归模型 新手学习编程的最佳方式是什么? 由《湾区美食》一文引发的对 IT 届 offer 选择的思考 放肆的使用UIBezierPath和CAShapeLayer画各种图形 在产品经理面前,交互设计师还有存在的意义吗?