微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

为什么李世石会输|BetterRead

2016-03-10 08:51 王烁


文|王烁


3月9日,李世石会输给AlphaGo。


AlphaGo横空出世的时候,我写过一篇文章《我们押宝阿尔法围棋》发在BetterRead,讲它为什么会赢。这次讲李世石为什么会输。


李世石不是此刻的世界最强者。算上刚刚结束的农心杯三国围棋擂台赛最终局,他已经连续输给中国的柯洁好多盘,输掉了近来两人相争的所有重大比赛。


不过,我要讲的不是这个。李世石是不是最强者没有什么关系,他已经够强了。


接着看。


几个月前,在两人争夺世界冠军头衔之前,被问及与李世石之战胜率如何时,柯洁说:李世石有5成,如果总共有100成的话。


棋盘如战场,不许人间见白头。十余年前,李世石像柯洁这般如日中天的时候,也是一样地盛气凌人,不给别人留路走。


不过,我要讲的也不是一个李世石遭报应的故事。


接着看。


后来有人问李世石,你当初那么目无余子,是真的认为自己最强吗?


李世石说,不是的,是因为当时李昌镐太强大了,又没有任何破绽,我觉得自己模仿他的平衡风格毫无胜算,只有尽力张扬自己的性格才有可能破局(李昌镐是1990年代中期到本世纪第一个10年中期无争议的围棋统治者。今天围棋总共产生了100个世界冠军,其中他拿的最多,17个)。


少年的心事与心机啊。


李世石及其发扬光大至今仍统治职业棋界的棋风,极度重视气势:你要战,我便战;你不要战,我更要战,追求从一开始便将对手拉入不到终局不休的无数场战斗之中。


为什么这个策略可行?


第一,战斗中,双方下错的概率显著增加。你会犯错,我也会犯错。棋手不再不切实际地寄希望于不犯错误,而是争取自己的错误犯得较小,避免自己成为犯最后那个错误的一方。


第二,主动将局面导向这种博弈的一方,在心理上、棋风上乃至体力上更有准备。


第三,一战定局这种事变得越来越少,一局棋变得很漫长,在可能多达几十场战斗中,如果你擅于捕捉机会,机会多很多。


全力张扬桀傲个性,不求平衡,从开局战斗到终局,李世石创造了自己的时代,引领了一代围棋风格,其间收获了十多个世界冠军头衔,也埋下了今天面对AI的尴尬。


为什么?


与投资界里常说的赢亏同源相似,李世石的长处明显,短板也明显,都是一个:在战斗中寻找对手的破绽,自己的破绽也会增多,为将局面引入乱战,甚至不惜故意露出破绽,开局即崩。


李世石雄踞世界棋坛多年,但没有留下传统意义上的名局,就是那种棋:双方落子都甄于完美,没有恶手,一方取胜是因为下得更好,而不是另一方下得不好。李世石固然会下出绝妙手段,但也会露出不少破绽,下出不少恶手,一盘棋赢下来是因为对手的破绽和恶手更多。李世石拿到世界冠军的不少决胜谱很难看,对手在懊恼自己犯下错误之余,更有许多郁结。不信请问同为世界冠军级棋手但被李世石多次碾压的常昊、孔杰。李世石棋风有恶名“僵尸流”,就是这样来的。


这样说对李世石并不公平。旁观李世石下棋,会觉得李世石的棋风很脆,常常在开局用压迫式的布子求战,结果露出破绽,一举落入下风;然而那些坐到李世石对面的高手,会觉得李世石的棋强韧之极,他们常常赢得每场战斗,直到输掉最后一场战斗。


可是,李世石这样下,用自己的不稳定賭对手的更不稳定,对AI会有效吗?


点到即止。


最后,再来看一下AlphaGo。


上周,研发AlphaGo的Goolge Deepmind创始人Demis Hassabis在牛津大学发表演讲,介绍人工智能进展,其中大部分内容介绍AlphaGo(https://www.youtube.com/watch?v=4fjmnOQuqao )。


面对当前局面,AlphaGo不是作穷举计算,两个深度学习算法极大地减少了计算量。“策略网络”算法负责下一步的落子选择,从理论上存在的平均200种可能选择,缩小到三四种得分最高的选择;“价值网络”算法负责评估落子后的局面与最终胜负的概率关系,就是判断局面是否处于优势,优势多大。


前者减少计算的宽度——不用去计算所有落子的可能;后者减少计算的深度,不用徒劳地去尝试算到底。


这确实就是人类棋手在面对棋局时的思维方式。没有人能算到终局,也无须如此,只要算到下一步棋能导向优势就足够了。用诺奖得主、经济学家、政治学家、人工智能专家司马贺(Herbert Simon)的话说,人做不到完美(optimal)计算,做够用就行(satisficing)的算计。AlphaGo下棋看来也是如此。可是,AlphaGo有拟人的围棋思维,但它不会有人的波动。与人下,你露出破绽,还有无数机会;与它下,就结束了。


从诞生以来,AlphaGo主要是自己的许多个分身之间下棋,多到每天下几十万盘。武侠小说中左脚踩右脚越升越高的轻功是乱盖的,但AlphaGo跟自己下棋却真能涨棋,Hassabis称之为内部测试。每隔一段时间,AlphaGo会跟外部棋手下,以作校准,这叫外部测试。前两次外部测试,2015年4月跟同为AI的crazystone下,2015年10月跟樊麾下,结果大家都知道了。


Hassabis最后说,跟李世石对战,绝大多数职业棋手认为AlphaGo会输,但我们的内部测试结果可不是这样。


走着看。


你还想看

我们押宝阿尔法围棋

用足一生只有一次的机会

成为超级预测者

 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 Hello World 程序的起源与历史 那些看起来遥不可及的想法,哪些正在由科技大佬一一实现? 为什么很少见工资高的程序员炫富? 为什么很少见工资高的程序员炫富? 英语流利说 Android 架构演进