微信号:charles1245987438

介绍:1.MBH俱乐部论坛(http://mobiushacker.org)2.树莓派和机器人 3.机器学习和机器人操作系统ROS 4.MBH项目合作的方式 5.创新和创业

Openai发布一看就能学会的“一次模仿学习模型”简直逆天啦!

2017-05-18 16:58 MBH创客蜂巢

文章来源:openai



openai发布最新消息:上个月,我们展示了这个机器人的早期版本,在那里我们使用域随机化对其视觉系统进行了培训,即通过使用各种颜色,背景和纹理显示模拟对象,而不使用任何真实图像。


现在,我们开发并部署了一种新的算法,一次性模仿学习,让人们通过在VR中执行它来传达如何做一个新的任务。给定一个演示,机器人能够从任意的起始配置中解决相同的任务。


一般程序


系统由视觉网络和仿制网络构成


视觉网络从机器人的相机摄取图像,并输出表示对象位置的状态。由于之前,视觉网络进行训练,与成千上万的模拟图像与照明,纹理和对象的不同扰动。(视觉系统从未对真实形象进行过培训)


仿真网络观察示范,处理它来推断任务的意图,然后从另一个起始配置开始实现意图。因此,仿制网络必须将示范推广到新的环境。但仿制网络如何知道如何推广?


网络从培训示例的分发中学到这一点。它对几十个不同的任务进行了培训,每个任务都有数千次演示。每个训练示例是执行相同任务的一对演示。网络被给予了第一次演示的全部和第二次演示的一次观察。然后,我们使用监督学习来预测示威者采取什么行动。为了有效地预测行动,机器人必须学习如何从第一次演示推断任务的相关部分。


应用于块堆叠,训练数据包括以相同顺序将块堆叠成匹配的塔组的轨迹对,但是从不同的起始状态开始。通过这种方式,模仿网络可以学习如何匹配示威者的座位和塔楼的大小,而不用担心塔的相对位置。


块堆叠


创建颜色编码的堆栈的任务很简单,我们可以用模拟的脚本策略来解决它。我们使用脚本策略生成仿制网络的培训数据。在测试的时候,模仿网络能够解析人类制作的示威游戏,尽管以前从未见过凌乱的人类数据。


仿网络使用注意在示范的轨迹和它表示块的位置,使系统具有可变长度的示范工作状态向量。它也引起了不同块的位置的注意,允许它模仿比以往更长的轨迹,并将堆栈块变成具有比其训练数据中的任何演示更多的块的配置。


为了模仿网络学习一个健壮的政策,我们不得不在脚本策略的输出中注入适量的噪音。这迫使脚本政策展示如何在发生错误的情况下恢复,从而教导模拟网络应对不完善政策的干扰。在不注意噪声的情况下,模拟网络学习的策略通常不能完成堆叠任务。


单次模仿学习  论文介绍


模仿学习通常用于孤立地解决不同的任务。这通常需要仔细的特征工程或大量样品。这远不是我们所期望的:理想情况下,机器人应该能够从任何给定任务的少量示范中学习,并且立即将相同任务的新情况概括为一种,而不需要任务特定的工程。在本文中,我们提出了一种实现这种能力的元学习框架,我们称之为单次模仿学习。

 
具体来说,我们考虑有一个非常大的任务集的设置,每个任务都有很多实例。例如,一个任务可能是将一个表上的所有块堆叠成一个单独的塔,另一个任务可能是将所有的块放在一个表中的两个块塔等。在每种情况下, 任务的不同实例将由具有不同初始状态的不同块块组成。在训练的时候,我们的算法是针对所有任务的一个子集演示的。训练一个神经网络,其作为输入一个演示和当前状态(其最初是该对的另一个演示的初始状态),并输出动作,目标是所得到的状态和动作序列与可能与第二次演示。在测试时间,提出了一个新任务的单个实例的演示,并且神经网络预期在新任务的新实例上表现良好。使用轻松的注意力使得模型可以推广到训练数据中看不到的条件和任务。我们预计,通过在更多种类的任务和设置上培训这一模式,我们将获得一个通用系统,可以将任何演示转化为强大的策略,从而实现压倒性的各种任务。


论文详情查看:https://arxiv.org/abs/1703.07326

GitHub资源:https://github.com/openai/roboschool

RoboSchool:https://github.com/openai/roboschool


 
MBH创客蜂巢 更多文章 《人工智能时代程序员自我修养》章节认领!! Google发布AIY项目:创客们的硬件人工智能DIY 人工智能时代的创客精神 一起写书!!! Facebook开源Caffe2:可在树莓派上训练和部署模型
猜您喜欢 软件开发人员的编程障碍,你知道多少? 删不掉的网络记忆 校招 | 携程技术类校招内推开始了! 腾讯安全专家周斌:“安全”是场要耐得住寂寞的马拉松 Swift,你不得不学的5个原因