分享Pieter Abbeel和Sergey Levine基于深度增强学习在机器人中的应用

作者 · 段晋军
1034次浏览
2018-03-05
来源 · 知乎
分享
  
字体-+

作者参考李沐大神的讲义《使用MXNet/Gluon来动手学深度学习》，总结归类AI设计的算法，并列举几位在深度学习方面的大师以及比较好的网站、博客等等。

李沐大神的《动手学深度学习》视频已陆续上线，免费观看，请登录睿慕课网站哦。

近期，人工智能在计算机视觉、自然语言处理、语音识别等等领域都得到了广泛的应用。AI如此的火，那么她能不能应用在机器人领域呢？

很多小伙伴针对这个问题也进行了讨论：有没有将深度学习融入机器人领域的尝试？有哪些难点？， @fly qq 大神的回答已经非常的全面。除了这个讨论，还有些其他的讨论，例如深度学习在机器人领域的局限和潜力都在哪里？（上）等等。

最近自己也在看这方面的资料，先把这段时间看的内容做个小结，分享给那些和我一样的初学者。

在分享“AI能不能应用在机器人领域”这个问题之前，先来补充点基础知识，便于梳理AI的众多算法。引用 @李沐大神视频讲座《使用MXNet/Gluon来动手学深度学习》的一副图来说明人工智能、机器学习和深度学习的关系。

下面的总结是参考了李沐大神的讲义《gluon_tutorial_zh.pdf》。先对AI所涉及到的算法进行简单归类，进而引出深度学习等能否应用到机器人领域这个话题。

（1）监督学习（supervised learning）

① 回归分析（regression）公司股票价格、房价、电影评分，强调“多少”

② 分类（classification） OCR、CEO离职、识别类别、动物分类

③ 标注（tagging） “是否有”标签

④ 搜索和排序*（search and ranking）

⑤ 推荐系统（recommender systems）购物web、搜索引擎、新闻门户

⑥ 序列学习（sequence learning）视频片段，机器翻译，死亡风险

⑦ 语类标注和句法分析（tagging and parsing）分解和注释文本

⑧ 语音识别（automatic speech recognition）

⑨ 文本转语音（text to speech）

⑩ 机器翻译（machine translation）

（2）无监督学习（unsupervised learning）

① 聚类（clustering）少量原形，精准概况

② 子空间估计（subspace estimation）裁衣

③ 主成分分析（principal component analysis）

④ 表征学习（representation learning）城市向量

⑤ 生成对抗网络（generative adversarial networks）生成数据，真实数据在统计中的相似性

⑥ 贝叶斯模型因素间关联性

（3）与环境因素交互

① 协变量转移（covariate shift）

② 强化学习（reforcement learning）

③ 深度强化学习（deep learning learning） Deep Q-network，AlphaGo

④ 信用分配问题（credit assignment problem）雇员升职

⑤ 马尔科夫决策问题（Markov decision problem，MDP）环境充分观察

⑥ 情境式赌博机问题（contextual bandit problem）状态不依赖于之前的动作

⑦ 多臂赌博机问题（Multi-armed bandit problem）不存在状态，仅有一组可选动作，问题初期搭配未知的奖励。

李沐大神的讲义非常清楚，给大家进行了非常清晰的归类，解决了疑惑：遇到什么样的问题应该采用什么样的算法和策略。

言归正传， @盖蚊叮 给大家列举了几位将DL应用到机器人领域的研究者，再列举一遍：

① Sergey Levine

② Pieter Abbeel

③ Ashutosh Saxena

④ Martin Riedmiller

⑤ Emo Todorov

⑥ Igor Mordatch

最近一则新闻引起了我的注意，离开OpenAI和导师一起创业，他们要让机器人不编程也能像人一样干活，文中说的导师就是Pieter Abbeel。

Pieter Abbeel是谁呢？Pieter Abbeel和Sergey Levine又是什么关系呢？

大家都听过世界公认的计算机视觉大神Micheal Jordon，而他的弟子也是家喻户晓，那就是百度前首席科学家Andrew Ng（吴恩达）。Andrew留校斯坦福之后，带出了一名叫做Pieter Abbeel的弟子。Pieter Abbeel 2008年从斯坦福大学博士毕业后，回到了美国加州大学伯克利分校做教授。2014年，Pieter Abbeel实验室的博士后Sergey Levine发明了启发式策略搜索（Guided Policy Search），进一步提高了机器人学习新动作的效率。Sergey Levine后来成为了伯克利的教授，和Pieter Abbeel一起继续在基于神经网络的机器人控制研究领域探索。（此段文字摘抄于 @YY硕 大神的文章又爱又怕，学术大佬各执一词，工业机器人的未来是否真的由人工智能主宰？）。

而我一直关注Sergey Levine和Pieter Abbeel的研究工作，可以详见网页Sergey Levine。

本专栏的目的就是来分享Sergey Levine和Pieter Abbeel的研究工作，主要对他们的代表作展开分析和讨论。

① Deep Visual Foresight for Planning Robot Motion.

② Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates.

③ Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection.

④ End-to-End Training of Deep Visuomotor Policies.

先来分享一个Sergey Levine最近的talk，网址为：https://www.youtube.com/watch?time_continue=2947&v=eKaYnXQUb2g。

还有一个Pieter Abbeel的讲座视频，网址为：https://www.youtube.com/watch?v=SYqV543LWoY。

推荐大家看一下google research blog：https://research.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html?m=1。

非常期待和您一起来讨论《深度增强学习在机器人中的应用》，也欢迎大家积极投稿~

本文转载自知乎，作者：段晋军，如若转载请联系原作者。

参与评论

段晋军

东南大学博士，研究方向：智能机器人，研究具体内容：多机器人协作、控制器设计、基于阻抗模型的灵巧双臂位置力协调控制、基于深度增强学习在机器人中的应用等。2015年9月—2016年9月在新加坡南洋理工大学访学。擅长领域：机器人控制器，控制器设计与架构、控制器算法；基于阻抗的双臂位置力协调：包括力控，协调策略等。

作者最近文章

仿人机器人如何入门？需要掌握哪些知识要点？

1128人浏览

经典移动双臂系统-德国宇航局DLR_Rollin_Justin整体浅析

2020人浏览

尝试揭开Atlas后空翻的面纱-其背后的技术浅析

1315人浏览

需求类型
我的需求	内容需在50-300字之间
姓名	名称需在2-6字之间
手机号码	发送验证码手机号码格式不正确
手机验证码
	免费提交需求