微信号:MathAndAlgorithm

介绍:从生活中挖掘数学之美,在实践中体验算法之奇,魅力旅程,从此开始!

为什么强化学习会成为当下机器学习最火的研究领域?

2018-06-09 20:41 算法与数学之美


强化学习(reinforcement learning),是机器学习的一个重要分支,也是当下机器学习最火热的研究领域。强化学习的本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。


强化学习是我们以及几乎所有动物学习的重要模式。举个简单的例子:我们在训练幼年的狗狗学习“坐下”这个技能时,狗狗刚开始时通常会尝试做出很多动作以吸引我们的注意,但是只有当坐下时,才能得到奖励(吃美味的零食),做其它动作时,没有奖励。重复尝试几次后,狗狗就会经常做出“坐下”这个决策。


(图片来源于网络)


强化学习的思想与人类的学习过程有很大的相似性,因此被认为是迈向通用人工智能的重要途径。首位美国人工智能协会(AAAI)华人Fellow,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学杨强教授说“深度学习是昨天,强化学习是今天”。

随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,除应用于机器人控制、无人驾驶、游戏博弈,还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

(图片来源于网络)

强化学习已经引起国内外足够的关注,但由于中文资料少之又少,国内鲜有高校开设系统性的课程,入门难度较大。深蓝学院联合中科院自动化所、清华大学相关领域的老师和研究生,打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践,让大家掌握算法的核心思想,并安排Project大作业,体验强化学习的实际应用。


课程团队


张启超   中科院自动化所复杂系统管理与控制国家重点实验室助理研究员,中科院自动化所博士,研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章,获得中科院院长优秀奖、北京市优秀毕业生等,团队在2017中国智能车未来挑战赛中获得两项冠军(离线测试比赛前方车辆检测、前方车辆距离监测)。

陈达贵   清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有丰富的深度学习和深度强化学习实践经验。


课程内容


第1章 概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践:环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践:马尔可夫决策过程

第3章 动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践:在Gridworld上的策略迭代和值迭代

第4章 无模型方法一:蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践:蒙特卡洛方法

第5章 无模型方法二:时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践:TD算法

第6章 无模型方法三:多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践:n-step TD

第7章 函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践:深度学习框架

第8章 策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践:AC算法

第9章 深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践:Atari游戏

第10章 基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章 前景与大作业

11.1 探索和利用        

11.2 基于模型的强化学习方法

11.3 分层强化学习      

11.4 反强化学习和示范学习

11.5 多智能体强化学习  

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业


课程目标


本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。


课程特色


1、课程学习结束,根据每次作业的分数,评选优秀学员;

2、优秀学员获得深蓝学院颁发的证书; 

3、优秀学员推荐至企业实习或者就业,有机会获得旷视科技(Face++)2000元奖学金。


先修课程


高等数学、线性代数、概率论、Python等


报名方式


200位报名的同学可添加助教欣然微信(shenlan-xinran)领取100元的早鸟报名优惠券。


点击“阅读原文”,了解旷视(Face++)奖学金

 
算法与数学之美 更多文章 阿里、京东高级算法专家讲述数学在企业中的应用 一文掌握高薪行业必备数学知识(附学习资源) 数学和物理的共同演化 当深度学习走进高考考场,会发生什么!! 获得信息学奥赛冠军的那批人,都去了这个地方
猜您喜欢 Hello, Go! 《Android插件化技术——原理篇》 听听阿德勒说,幸福是什么 [连载] 途客们的旅行梦:种子融资