分享Pieter Abbeel和Sergey Levine基于深度增强学习在机器人中的应用
- 作者 · 段晋军
- 1034次浏览
- 2018-03-05
- 来源 · 知乎
- 分享
- 字体-+
作者参考李沐大神的讲义《使用MXNet/Gluon来动手学深度学习》,总结归类AI设计的算法,并列举几位在深度学习方面的大师以及比较好的网站、博客等等。
李沐大神的《动手学深度学习》视频已陆续上线,免费观看,请登录睿慕课网站哦。
近期,人工智能在计算机视觉、自然语言处理、语音识别等等领域都得到了广泛的应用。AI如此的火,那么她能不能应用在机器人领域呢?
很多小伙伴针对这个问题也进行了讨论:有没有将深度学习融入机器人领域的尝试?有哪些难点?, @fly qq 大神的回答已经非常的全面。除了这个讨论,还有些其他的讨论,例如深度学习在机器人领域的局限和潜力都在哪里?(上)等等。
最近自己也在看这方面的资料,先把这段时间看的内容做个小结,分享给那些和我一样的初学者。
在分享“AI能不能应用在机器人领域”这个问题之前,先来补充点基础知识,便于梳理AI的众多算法。引用 @李沐大神 视频讲座《使用MXNet/Gluon来动手学深度学习》的一副图来说明人工智能、机器学习和深度学习的关系。
下面的总结是参考了李沐大神的讲义《gluon_tutorial_zh.pdf》。先对AI所涉及到的算法进行简单归类,进而引出深度学习等能否应用到机器人领域这个话题。
(1)监督学习(supervised learning)
① 回归分析(regression) 公司股票价格、房价、电影评分,强调“多少”
② 分类(classification) OCR、CEO离职、识别类别、动物分类
③ 标注(tagging) “是否有”标签
④ 搜索和排序*(search and ranking)
⑤ 推荐系统(recommender systems) 购物web、搜索引擎、新闻门户
⑥ 序列学习(sequence learning) 视频片段,机器翻译,死亡风险
⑦ 语类标注和句法分析(tagging and parsing) 分解和注释文本
⑧ 语音识别(automatic speech recognition)
⑨ 文本转语音(text to speech)
⑩ 机器翻译(machine translation)
(2)无监督学习(unsupervised learning)
① 聚类(clustering) 少量原形,精准概况
② 子空间估计(subspace estimation) 裁衣
③ 主成分分析(principal component analysis)
④ 表征学习(representation learning) 城市向量
⑤ 生成对抗网络(generative adversarial networks) 生成数据,真实数据在统计中的相似性
⑥ 贝叶斯模型 因素间关联性
(3)与环境因素交互
① 协变量转移(covariate shift)
② 强化学习(reforcement learning)
③ 深度强化学习(deep learning learning) Deep Q-network,AlphaGo
④ 信用分配问题(credit assignment problem) 雇员升职
⑤ 马尔科夫决策问题(Markov decision problem,MDP)环境充分观察
⑥ 情境式赌博机问题(contextual bandit problem) 状态不依赖于之前的动作
⑦ 多臂赌博机问题(Multi-armed bandit problem) 不存在状态,仅有一组可选动作,问题初期搭配未知的奖励。
李沐大神的讲义非常清楚,给大家进行了非常清晰的归类,解决了疑惑:遇到什么样的问题应该采用什么样的算法和策略。
言归正传, @盖蚊叮 给大家列举了几位将DL应用到机器人领域的研究者,再列举一遍:
① Sergey Levine
② Pieter Abbeel
③ Ashutosh Saxena
④ Martin Riedmiller
⑤ Emo Todorov
⑥ Igor Mordatch
最近一则新闻引起了我的注意,离开OpenAI和导师一起创业,他们要让机器人不编程也能像人一样干活,文中说的导师就是Pieter Abbeel。
Pieter Abbeel是谁呢?Pieter Abbeel和Sergey Levine又是什么关系呢?
大家都听过世界公认的计算机视觉大神Micheal Jordon,而他的弟子也是家喻户晓,那就是百度前首席科学家Andrew Ng(吴恩达)。Andrew留校斯坦福之后,带出了一名叫做Pieter Abbeel的弟子。Pieter Abbeel 2008年从斯坦福大学博士毕业后,回到了美国加州大学伯克利分校做教授。2014年,Pieter Abbeel实验室的博士后Sergey Levine发明了启发式策略搜索(Guided Policy Search),进一步提高了机器人学习新动作的效率。Sergey Levine后来成为了伯克利的教授,和Pieter Abbeel一起继续在基于神经网络的机器人控制研究领域探索。(此段文字摘抄于 @YY硕 大神的文章又爱又怕,学术大佬各执一词,工业机器人的未来是否真的由人工智能主宰?)。
而我一直关注Sergey Levine和Pieter Abbeel的研究工作,可以详见网页Sergey Levine。
本专栏的目的就是来分享Sergey Levine和Pieter Abbeel的研究工作,主要对他们的代表作展开分析和讨论。
① Deep Visual Foresight for Planning Robot Motion.
② Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates.
③ Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection.
④ End-to-End Training of Deep Visuomotor Policies.
先来分享一个Sergey Levine最近的talk,网址为:https://www.youtube.com/watch?time_continue=2947&v=eKaYnXQUb2g。
还有一个Pieter Abbeel的讲座视频,网址为:https://www.youtube.com/watch?v=SYqV543LWoY。
推荐大家看一下google research blog:https://research.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html?m=1。
非常期待和您一起来讨论《深度增强学习在机器人中的应用》,也欢迎大家积极投稿~
本文转载自知乎,作者:段晋军,如若转载请联系原作者。
相关标签:
- 机器人
- 深度学习
参与评论