24小时全国服务热线
点击量:112 时间:2025-01-01
在具备挑战性的环境中,一些人工智能系统通过利用过去经验所获取的世界表象来实现目标。研究人员将这些应用于推展到新的情况,使它们需要在以前未曾遇上过的环境中已完成任务。
事实证明,增强自学——一种用于奖励来推展软件策略朝着目标行进的训练技术——尤其合适自学一个总结agent经验的世界模型,并通过拓展来增进新的不道德的自学。消息,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员公开发表了一篇取名为《梦想掌控:通过潜意识的自学不道德》的新研究,他们研发了一个增强型自学智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提早计划自由选择行动。他们说道,Dreamer不仅限于于任何自学目标,而且在数据效率、计算出来时间以及最后性能方面都多达了现有的方法。
在它的整个生命周期中,无论是交叠还是分段,Dreamer都会自学一个latent dynamics model(潜在动力学模型),以预测动作和仔细观察结果的报酬。在这种情况下,“latent dynamics model”是所指从图像输出中自学并继续执行计划以搜集新经验的模型。
“潜在”回应它依赖隐蔽状态或潜在状态的灵活序列,这使它需要自学更加多抽象化的回应形式,例如对象的方位和速度。用于编码器组件,有效地将来自输出图像的信息构建到隐蔽状态中,然后及时地将隐蔽状态向前投影以预测图像和奖励。上图:Dreamer已完成一个转动钟摆的任务。
中间表明45步预测Dreamer用于了一个多部分的latent dynamics model,这个模型的结构有些简单。“回应”位对仔细观察和动作展开编码,而“过渡性”位则在没看见不会引发仔细观察的情况下意识到状态。
第三个组件(奖励组件)根据等价的模型状态来投影奖励,而不道德模型将实行自学的策略并目的预测可解决问题想象的环境的不道德。最后,价值模型评估行动模型构建的预期想象奖励,而仔细观察模型获取对系统信号。
上图:梦想家在迷宫中导航系统。中间表明45步预测。了解到,在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉掌控任务上的效果,DeepMind Control Suite是一种用作评估机器学习驱动的代理的建模软件。
他们首先用于Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运营一次。他们说道,掌控套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花上了17个小时才超过了类似于的性能。)上图:梦想家在玩Atari游戏(摔跤)。
中间表明45步预测。研究人员报告说道,Dreamer有效地利用了自学的世界模型来从少量经验中展开总结,并且它的顺利证明了,通过潜在的想象力展开的自学不道德可以比不上顶级方法。
他们还说道,Dreamer的价值模型即使在短期计划中也展现出较好,在20个任务中的16个(有4个打成平手)上展现出高于其他模型。研究人员写到:“未来,关于密切相关自学的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展出他们的工作。Dreamer项目的代码可在GitHub上公开发表取得。(公众号:)原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:开云(中国)Kaiyun-www.hua-ru.cn