微信号:tech5ai

介绍:中国顶尖人工智能与机器人行业新媒体平台,专注国内外人工智能、机器人、AR/VR、无人驾驶等科技前沿的深度报道.

《刀塔2》人工智能5V5爆锤人类,每天训练量相当于人类180年

2018-06-28 12:01 人工智能机器人联盟


近日,由硅谷“钢铁侠”马斯克创立的人工智能非营利组织OpenAI在自己官方博客上宣布:他们开发的AI已经能够组队在经典战斗竞技类游戏《刀塔2》(Dota2)中,进行5V5对决,并战胜排名前1%的业余爱好者。

对OpenAI有所了解的人,肯定还记得在去年8月份,这个研究机构开发的AI已经在《刀塔2》1V1的比赛中,打败顶尖高手。但这次,OpenAI升级了。在5V5的游戏中,人工智能可以像人类一样去做更多的团队协调和长期规划。

在官方给出的视频中,我们能看到Bot冰女(天辉)BKB跳大的流畅过程,“操作”行云流水。



AI每天训练量相当于人类玩180年游戏
这一次的不同点,或者说厉害之处在于,5个算法间需要学会如何与“队友”协作,并制定策略。OpenAI的博客称,通过自我对抗学习,OpenAI Five每一天的训练量相当于人类玩180年的游戏时间。他们在几个月的时间里都以这种速度进行了训练。


人工智能也懂相互配合
与围棋、国际象棋等技术战略类游戏不同,《刀塔》这种多人联机在线竞技类游戏有着更为复杂的游戏机制,还需要队友间完美的配合才能取得最终的胜利。而这次的5位AI“玩家”完美的证明了人工智能也懂得相互配合。

“我们从比赛中能感受到,AI算法间的协作意图似乎是一种非常自然的本能表现。”Brockman说。在《刀塔2》5V5的团队赛中,他们甚至尝试了用一位人类玩家顶替5位“AI玩家”中的一个,而这位替补上场的人类玩家的感觉是:“我能体会到AI队友对我的支援!”


《刀塔2》中,AI掌握了哪些技能
在一个实时的《刀塔2》5V5游戏中,每个玩家控制一个英雄。对于AI来说,就需要掌握以下技能:一是长线策略。《刀塔》游戏平均每秒30帧,一场时长45分钟,大概8万tick(编注:在《刀塔2》的游戏中,每个tick,意味着在玩家所运行的游戏能接受的情况下,玩家每秒会接收30次其他玩家的数据)。大部分操作(例如操纵英雄移动)都有单独的小影响,但一些个体行为可能会影响到游戏战略。此外,还有一些策略可能会终结整场游戏。



OpenAI Five的做法是每4帧观察一次,产生了2万个决策。相比之下,国际象棋一般在40步之前就结束了,而围棋大概在150步,但这些游戏每一步都很有策略性。二是局部可观测状态。在游戏中,己方单位和建筑的视野都有限。地图的其他部分是没有视野的,可能藏有敌人和敌方策略。高手玩家通常需要基于不完整数据做推理,以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。



三是高维、持续的行为空间。在游戏中,每个英雄能采取数十种行为,而且许多行为要么面向敌方单位,要么点地移动位置。OpenAI Five把这个空间离散到每个英雄17万种可能的操作;不计算连续部分,每tick平均有1000个可能有效行为。而国际象棋的行为数量平均是35,围棋为250。四是高维、连续的观察空间。《刀塔》是在一张包含十个英雄、二十几个塔、数十个NPC单位(编注:NPC一般指的是游戏中那些由电脑控制的路人)的地图上操作的游戏,此外还有神符、树、眼位等。通过与《刀塔2》运营公司Valve的合作,OpenAI Five模型把游戏视为2万个状态,也就代表人类在游戏中可获取到的所有信息。相比之下,国际象棋代表了约为70个枚举值(8x8的棋盘,6类棋子和较小的历史信息)。围棋大概有400个枚举值(19x19的棋盘,黑白2子,加上Ko)。



匹兹堡卡内基梅隆大学的研究员Noam Brown说:“《刀塔2》是一个极其复杂的游戏,能打败强大的业余玩家就已经很不容易了,而且, 处理这种大型游戏中的隐藏信息是一个很大的挑战。”

扫码加人工智能群
与百位爱好者交流




 
人工智能机器人联盟 更多文章 爷爷买机器人,孙子说买了个傻蛋。官方回应:1+1=1是首儿歌 vivo AI新机用QQ浏览器会调用摄像头,QQ回应:不会拍摄 从25岁住在父母家到29岁退休,我的财务自由故事 富士康老板郭台铭:5年内机器取代8成工人 刘强东618很高兴,京东重型无人机正式下线!计划续航超6000公里!
猜您喜欢 Macbook SSD硬盘空间不够用了?来个Xcode大瘦身吧! 别了,一代国产冰箱巨头 为什么说要用DDD替代CRUD来设计API 【游戏安全】关于某P对硬件断点做出的保护分析及对抗办法 React系列之(一) ---入门篇