CMU提出新型内正在驱动练习步骤正在庞杂估计下效能优于深化练习赢博体育

　　雷锋网消息，近期，CMU发布了一篇新的论文，由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam，Rob Fergus提出了一种新的学习方法，内在驱动学习，或称异步自我学习。论文介绍了该学习方式的优越性，并与RL方法做了比较，显示出了在复杂计算下内在驱动学习的效率类似于或更高于RL方法。本文简要介绍了这种创新方法的原理。

CMU提出新型内正在驱动练习步骤正在庞杂估计下效能优于深化练习赢博体育(图1)

　　论文中使用同一个代理的两个不同版本，并用Alice和Bob形象的对其进行命名赢博体育。通过Alice和Bob的对抗学习，来实现代理对环境认知的无监督学习。

　　这种学习方式的实现简单概括为，Alice提出需要Bob实现的任务；并让Bob去实现任务。特别提出的是，这种机制着眼于可回退（或近似可回退）的环境，意味着环境状态允许重置，Alice将会“提出”任务，任务由几个步骤完成。

　　然后，Bob将会进行部分步骤回退，或某种意义上的对Alice已经完成的部分进行重复。

　　雷锋网了解到，通过适当的奖励机制，Alice和Bob将会自动的生成一个环境探索课程，从而实现代理的无监督学习。

　　比如图片中的例子就介绍了在Mazebase任务中实现的自我学习。由Alice提出Bob必须完成的任务。

　　在这幅图片中，Alice首先捡起了钥匙，开了门后，经过大门，然后关了灯，于是进入到STOP状态。

　　这时，智能体由Bob管控。Bob需要将环境恢复到初始状态，以获取内部奖励。于是，Bob必须先把灯打开，走过大门，放下钥匙，才能回到Alice的START状态。

　　这个过程需要Bob去学习环境中所有变量的作用。并且，例子中的钥匙、门、灯和其顺序都只是Alice可设计的诸多任务中的一种，

　　在内在驱动学习的原理中，Alice可自动产生很多的并且难度逐渐提高的任务。通过这些任务的训练，Bob可以逐渐的并且快速完成学习。当Bob收到一个新的任务的时候，比如走向途中的旗子，由于Bob已经充分认识了环境的情况，他可以很快完成任务并拿到外部奖励。

　　当使用RL任务来实验这种新的方法时，论文介绍道，内在驱动学习可以大大减少需要学习的内容。赢博体育赢博体育

关于作者: 小编

相关文章

好手是怎么赢博体育练习的？

走访众邦哈佛“学霸”为你揭秘什么才是最好的练习办法赢博体育

最有用的赢博体育六大练习步骤

热门文章

1相持体例观赢博体育点着重兼顾打算——以要旨造就为契机学形式增

2课余时辰学邦际课程武汉高中生备考3个月被剑桥大学考赢博体育取

3常睹的四种练习措施赢博体育

4赢博体育衡中退息老西席：“死磕”这8个研习方式思不上清华北多

5高效研习的好形赢博体育式精选(九篇)