分享Pieter Abbeel和Sergey Levine基于深度增强学习在机器人中的应用

作者参考李沐大神的讲义《使用MXNet/Gluon来动手学深度学习》,总结归类AI设计的算法,并列举几位在深度学习方面的大师以及比较好的网站、博客等等。

李沐大神的《动手学深度学习》视频已陆续上线,免费观看,请登录睿慕课网站哦。

近期,人工智能在计算机视觉、自然语言处理、语音识别等等领域都得到了广泛的应用。AI如此的火,那么她能不能应用在机器人领域呢?

很多小伙伴针对这个问题也进行了讨论:有没有将深度学习融入机器人领域的尝试?有哪些难点?@fly qq 大神的回答已经非常的全面。除了这个讨论,还有些其他的讨论,例如深度学习在机器人领域的局限和潜力都在哪里?(上)等等。

最近自己也在看这方面的资料,先把这段时间看的内容做个小结,分享给那些和我一样的初学者。

在分享“AI能不能应用在机器人领域”这个问题之前,先来补充点基础知识,便于梳理AI的众多算法。引用 @李沐大神 视频讲座《使用MXNet/Gluon来动手学深度学习》的一副图来说明人工智能、机器学习和深度学习的关系。


下面的总结是参考了李沐大神的讲义《gluon_tutorial_zh.pdf》。先对AI所涉及到的算法进行简单归类,进而引出深度学习等能否应用到机器人领域这个话题。

(1)监督学习(supervised learning)

① 回归分析(regression) 公司股票价格、房价、电影评分,强调“多少”

② 分类(classification) OCR、CEO离职、识别类别、动物分类

③ 标注(tagging) “是否有”标签

④ 搜索和排序*(search and ranking)

⑤ 推荐系统(recommender systems) 购物web、搜索引擎、新闻门户

⑥ 序列学习(sequence learning) 视频片段,机器翻译,死亡风险

⑦ 语类标注和句法分析(tagging and parsing) 分解和注释文本

⑧ 语音识别(automatic speech recognition)

⑨ 文本转语音(text to speech)

⑩ 机器翻译(machine translation)

(2)无监督学习(unsupervised learning)

① 聚类(clustering) 少量原形,精准概况

② 子空间估计(subspace estimation) 裁衣

③ 主成分分析(principal component analysis)

④ 表征学习(representation learning) 城市向量

⑤ 生成对抗网络(generative adversarial networks) 生成数据,真实数据在统计中的相似性

⑥ 贝叶斯模型 因素间关联性

(3)与环境因素交互

① 协变量转移(covariate shift)

② 强化学习(reforcement learning)

③ 深度强化学习(deep learning learning) Deep Q-network,AlphaGo

④ 信用分配问题(credit assignment problem) 雇员升职

⑤ 马尔科夫决策问题(Markov decision problem,MDP)环境充分观察

⑥ 情境式赌博机问题(contextual bandit problem) 状态不依赖于之前的动作

⑦ 多臂赌博机问题(Multi-armed bandit problem) 不存在状态,仅有一组可选动作,问题初期搭配未知的奖励。


李沐大神的讲义非常清楚,给大家进行了非常清晰的归类,解决了疑惑:遇到什么样的问题应该采用什么样的算法和策略。

言归正传, @盖蚊叮 给大家列举了几位将DL应用到机器人领域的研究者,再列举一遍:

① Sergey Levine

② Pieter Abbeel

③ Ashutosh Saxena

④ Martin Riedmiller

⑤ Emo Todorov

⑥ Igor Mordatch

最近一则新闻引起了我的注意,离开OpenAI和导师一起创业,他们要让机器人不编程也能像人一样干活,文中说的导师就是Pieter Abbeel。


Pieter Abbeel是谁呢?Pieter Abbeel和Sergey Levine又是什么关系呢?


大家都听过世界公认的计算机视觉大神Micheal Jordon,而他的弟子也是家喻户晓,那就是百度前首席科学家Andrew Ng(吴恩达)。Andrew留校斯坦福之后,带出了一名叫做Pieter Abbeel的弟子。Pieter Abbeel 2008年从斯坦福大学博士毕业后,回到了美国加州大学伯克利分校做教授。2014年,Pieter Abbeel实验室的博士后Sergey Levine发明了启发式策略搜索(Guided Policy Search),进一步提高了机器人学习新动作的效率。Sergey Levine后来成为了伯克利的教授,和Pieter Abbeel一起继续在基于神经网络的机器人控制研究领域探索。(此段文字摘抄于 @YY硕 大神的文章又爱又怕,学术大佬各执一词,工业机器人的未来是否真的由人工智能主宰?)。

而我一直关注Sergey Levine和Pieter Abbeel的研究工作,可以详见网页Sergey Levine

本专栏的目的就是来分享Sergey Levine和Pieter Abbeel的研究工作,主要对他们的代表作展开分析和讨论。

① Deep Visual Foresight for Planning Robot Motion.

② Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates.

③ Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection.

④ End-to-End Training of Deep Visuomotor Policies.

先来分享一个Sergey Levine最近的talk,网址为:https://www.youtube.com/watch?time_continue=2947&v=eKaYnXQUb2g



还有一个Pieter Abbeel的讲座视频,网址为:https://www.youtube.com/watch?v=SYqV543LWoY


推荐大家看一下google research blog:https://research.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html?m=1

非常期待和您一起来讨论《深度增强学习在机器人中的应用》,也欢迎大家积极投稿~


相关标签:
  • 机器人
  • 深度学习

参与评论

段晋军

东南大学博士,研究方向:智能机器人,研究具体内容:多机器人协作、控制器设计、基于阻抗模型的灵巧双臂位置力协调控制、基于深度增强学习在机器人中的应用等。2015年9月—2016年9月在新加坡南洋理工大学访学。擅长领域:机器人控制器,控制器设计与架构、控制器算法;基于阻抗的双臂位置力协调:包括力控,协调策略等。

推荐文章

为什么我们在机器人运动控制中一直在强调力控? 机器人控制该怎么入门? 机械设计(课程)——丝杆传动系统结构设计 浅谈阻抗 经典SEA线性动力学模型及其简化与力矩求导

提示

需求登记

×
需求类型
我的需求
内容需在50-300字之间
姓名 名称需在2-6字之间
手机号码
发送验证码 手机号码格式不正确
手机验证码
免费提交需求