微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

AlphaGo攻克围棋,人工智能角力资本市场

2016-03-19 09:03 大数据实验室

一、人工智能攻克围棋


2016年3月9日,AlphaGo和李世石之间的围棋人机大战第一局吸引了世人的目光。


李世石何许人也?1983年出生,12岁就成为职业棋手,个性张扬,在16岁升为职业三段之后就宣布不再参加升段考试,20岁那年获得两个世界冠军之后直接升为职业九段(韩国棋院特意为他修改了升段规则,获得一个世界冠军可以直升三段),人称“不败少年”。


李世石力量强大,出手敏锐,善于抓住对手的弱点,有“小李飞刀”之称。出道以来,获得14个世界冠军头衔,是围棋界过去十年的第一人。近年来状态略有下滑,但是仍然是围棋界活跃的最顶级高手。


AlphaGo何许人也?AlphaGo是谷歌DeepMind公司推出的人工智能棋手,在2015年10月因击败旅居法国的职业棋手樊麾二段而出名。


2016年3月9日至15日,AlphaGo向过去十年的围棋界第一高手李世石进行五番棋挑战。比赛采用中国围棋规则,分先下。双方将下完五局,获得三胜者即可获得100万美元奖金。


比赛之前,职业高手一致认为李世石将以5:0结束比赛。李世石本人也信心满满,认为自己将以5:0或者4:1拿下比赛。事实上,电脑只要能够赢一局就已经是对人类的胜利。


然而,出乎所有职业高手的意料。第一局,AlphaGo就击败了李世石。


人类最后的智慧高地失守了。


二、深度学习


(一)AlphaGo是怎样征服围棋的


早在1997年,“深蓝”电脑就战胜了人类国际象棋冠军卡斯帕罗夫,但是在AlphaGo之前,电脑在围棋上战胜人类顶级棋手是不可想象的。


在国际象棋中,我们可以考虑通过穷举法进行计算,寻找最好的一手棋,如下图所示。如果计算机的计算能力足够强,通过穷举,总可以找到每一手棋的最佳下法。



围棋包含19×19共361个不同的落子点,如果考虑通过穷举法来下棋,第一步有361种可能;在第一步确定的每一种局面下,第二步有360种可能;在前两步确定的每一种局面下,第三步有359种可能。


那么前面3步,就有361×360×359种可能的局面(即使考虑对称性,局面的可能性也在百万级别),而一盘棋,往往要下到两百多步以上才终局。因而穷举法来下围棋的话,计算量是不可思议的。


据精确测算,围棋一共存在超过10^171种可能性,这已经超出宇宙中的粒子数量了。


正因为如此,此前人们一致认为电脑在未来十年内不可能战胜人类,围棋也被称之为人类最后的智慧高地。


既然穷举方法这么难,那么有没有办法降低这种问题的计算量呢?我们可以从穷举搜索的广度和深度上来考虑。


“广度”是指每一步需要考虑的可能性数量,“深度”就是对每一种选择,需要往后考虑多少步才能想清楚这种选择是不是好的,也就是给出评估。


假如对于某问题,每一步都有300种可能性,一共考虑50步,那么一共就有300^50种可能性。


A.广度方面的优化:如果我们通过某种方式,将每一步的可能性降为30种,那么我们一共需要搜索的可能性就只有30^50种,只有原来的10^50分之一了。


B.深度方面的优化:如果我们通过某种方式,将需要考虑的步数降为5步,那么我们一共需要搜索的可能性就只有300^5种了,只有原来的300^45分之一了。


可以看到,从深度方面的优化和广度方面的优化,都可以大大降低计算量。


而AlphaGo就是通过两个“大脑”来实现广度和深度方面的优化。


第一个大脑被称为“策略网络”(Policy Network),该大脑会模仿人类棋手的落子,在每一种局面下选择最佳的几种可能性;第二个大脑被称为“价值网络”(Value Network),该大脑对每一种可能性进行评估,预测该选择下赢棋的概率。



如果这两个大脑都足够强大,我们可以大大降低计算机的搜索量,使得电脑下围棋成为可能。


这两个大脑都建立在目前火爆科学界的深度学习上。


基于深度学习建立的策略网络会观察棋盘局面,预测人类高手下在不同位置的概率,概率越高,则说明这个位置更有可能是最佳的位置。该网络通过学习百万级的对局来进行训练。


基于深度学习建立的价值网络会评估不同局面上双方输赢的概率,该网络也是通过上百万个不同的局面训练出来的。


(二)深度学习原理


为什么要选择深度学习呢?事实上,在攻克围棋之前,深度学习就已经完成了许多壮举,在人工智能的许多实际问题上,如语音、图像、网络推荐系统、医药等方面都已经获得了重大的突破。



那么,什么是深度学习呢?


首先,我们以一个简单的分类模型为例进行介绍。假如下图左侧有两类点,红点和蓝点。


我们需要做一个分类器,判断未知类别的点(无色点)是属于红色一类还是蓝色一类。我们可以基于已知类别的红色点和蓝色点,建立起一条分类的线(右图虚线),将整个平面分成两份,这一过程被称为模型训练的过程。


那么,对于一个新的类别未知的点,我们就可以根据该点和分界虚线的相对位置,判断该点应该是属于红色一类还是蓝色一类。如果点落在分界线的左侧,则更有可能是红点;如果点落在分界线的右侧,则更有可能是蓝点。



在这个问题中,点的横纵坐标是机器学习的“输入”,颜色是“输出”。分类问题是通过建立起分类模型,对于不同的输入,计算出最接近真实的输出。


AlphaGo中棋局的评估也是类似的问题,我们需要针对不同的局面(输入),计算出赢棋的可能性(输出)。


对于稍微复杂一点的问题,线性分类器就不好使了。如下图左侧的点,我们不可能找到一条直线,将两种颜色的点分开。因此,这个问题是线性不可分的。


但是,如果我们能够找到一种方式,将平面上这些点转移(“映射”)到另一个空间中,就有可能找到一个超平面,将这两类点划分开。这个新的空间被称为“特征空间”,点在新空间的坐标被称为“特征”。


一个好的原始数据到特征空间的映射会使特征空间的分类问题变得简单,因此,我们一般通过已经存在的样本来获得这个映射,提取好的特征(根据样本进行模型训练)。


这个映射一般都是非线性的,这种非线性分类器能够解决比较复杂的分类问题。机器学习方面的支持向量机(SVM)、人工神经网络(NN)做的都是这样一件事情。



以上的两种方式,线性分类器和经过特征空间映射的非线性分类器的示意图如下图所示。



随着实际问题趋于复杂,人们发现,有时候我们将数据映射到特征空间还是不够的。如果我们将特征空间的点映射到另一个特征空间,甚至进一步映射到新的特征空间,那么原来不好解决的问题会变得容易解决。


深度学习就是这样一种模型,这种模型将原始的输入数据映射到特征空间(H1)之后,继续映射到更高层次的特征层(H2,H3,……)。隐含层的增多,极大的丰富了模型的表达能力。使得原来不可解决的问题变得容易解决。


但是,要做成这样一个模型,不仅需要足够好的训练方法,也需要百万、千万级别的数据和海量的计算。计算机硬件的发展和互联网的普及使得计算能力和数据量成为可能,共同铸就了深度学习的无所不能。



在AlphaGo的训练中,一方面,人工智能阅读大量的围棋比赛棋谱,进行训练;另一方面,当人工智能学习到一定的阶段后,可以和自己对弈,产生海量的棋谱。


因此,AlphaGo可以一边和自己下棋,一边不断学习成长,战胜人类的顶级高手成为指日可待的事情。


三、量化投资新战场


(一)海外动态


近日,世界上最大的对冲基金桥水基金将建立人工智能团队,期望在投资市场建立起优势。该团队将基于历史数据与统计概率建立起交易算法,让系统能够自动学习市场变化并适应新的信息。


与此同时,大名鼎鼎的文艺复兴科技公司和Two Sigma也在扩充自己的人工智能团队。


事实上,早在2007年,总部位于纽约的Rebellion Research公司就推出了第一个纯人工智能投资基金。


该公司的交易系统是基于贝叶斯机器学习,结合预测算法进行判断,该系统可以根据新的信息和历史经验不断演化,有效地通过自学习完成全球44个国家在股票、债券、大宗商品和外汇上的交易。


下图为Rebellion Research公司的交易系统在全球股票市场的表现。



近年来,通过人工智能进行投资的知名机构还有,香港的Aidyia,旧金山的Sentient Technologies,伦敦的Castilium和CommEq,日本的Alpaca,其中,Alpaca和Sentient声称其核心算法是深度学习。


这种人工智能驱动的基金管理一般不是高频交易。它并不寻求抢先交易或通过行动的快速来赚钱。它寻求的是未来更长时段(小时、天、星期,甚至月)的最好交易。说得更确切一些,机器(而不是人)在选择策略。


从上世纪七八十年代以来,量化投资不断发展壮大,从简单的配对交易发展到越来越复杂的模型。同时,大量新兴科技被应用到资本市场。


目前,以深度学习为首的人工智能飞速发展,资本市场也成为各种人工智能角力的新战场。


(二)广发金工深度学习研究进展


我们此前基于深度学习发布了两篇报告,《深度学习股指期货日内交易策略》和《深度学习股票多因子Alpha交易策略》。


《深度学习股指期货日内交易策略》提出了基于深度学习的股指期货价格高频预测模型,在沪深300股指期货实证上,1秒钟高频股价预测准确率超过了73%。


在预测模型的基础上,该报告提出了一种基于股指期货高频行情数据的日内交易策略。在万二的交易成本下,年化收益率为77.9%,最大回撤为-5.86%。



《深度学习股票多因子Alpha交易策略》通过深度学习算法对股票市场数据进行挖掘,建立起通过股票市场数据预测股价短期内走势的模型,通过该预测模型的预测得分,我们可以筛选出股票组合并且获得超额收益。


因此,该预测得分可以是可以产生Alpha收益的有效因子。与传统的量价因子相比较,通过深度学习算法的因子能够获得更好的收益率。


在组合规模为100的情况下,该多因子Alpha策略从2011年到2014年年中的累积收益率超过120%,各年度收益率都超过15%。



风险提示


策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。


(来源:广发金融工程研究)






只有盈利,没有亏损——跟炒单教父学短线日内交易!

课程时间:2016年03月26日-30日(2+3)

课程地点:北京

5天课程内容:(2天理论方法+3天实盘指导)


咨询电话/微信:13061694649



 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 搜狐视频Redis私有云cachecloud开源了 PHP中实现异步调用多线程程序代码 IOS开发:这是来自一位开发大师给新手的6条建议 基于 KIF 的 iOS UI 自动化测试和持续集成 微软开始在“云”中使用Linux系统 这不是背叛