在上周于预印本服务器Arxiv.org上发表的一篇论文中,DeepMind的科学家介绍了简单传感器意图(SSI)的概念,这是一种减少在强化学习中定义奖励(描述AI应该如何表现的功能)所需的知识的方法系统。他们声称,SSI仅使用原始的传感器数据就可以帮助解决一系列复杂的机器人任务,例如,抓握,提起球并将其放入杯中。

在机器人领域训练AI通常需要人类专家和先验信息。必须根据当前的总体任务对AI进行调整,这需要定义一种奖励,该奖励指示成功并促进有意义的探索。SSI表面上提供了一种鼓励代理商探索其环境的通用方法,并提供了收集数据以解决主要任务的指南。如果将其商业化或部署到像仓库机器人这样的生产系统中,SSI可以减少对手动微调和计算量大的状态估计(即,根据输入和输出的测量来估计系统状态)的需求。

正如研究人员所解释的那样,在没有奖励信号的情况下,人工智能系统可以通过对机器人传感器(例如,触摸传感器,关节角度传感器和位置传感器)产生影响的学习策略来形成探索策略。这些政策探索环境以找到富有成果的区域,使他们能够收集主要学习任务的质量数据。具体地,SSI是通过获取传感器响应并根据以下两种方案之一来计算奖励而定义的辅助任务集:(1)奖励达到特定目标响应的代理,或(2)奖励因发生特定更改的代理。响应。

在实验中,论文的合著者将配备相机的机器人(Rethink Sawyer)的原始图像转换成少量的SSI。他们汇总了图像空间颜色分布的统计数据,从场景中对象的颜色估计值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触摸传感器的SSI,以及两个装有彩色块的篮子周围的摄像机。仅当将两个摄像机的颜色分布平均值移动到所需方向时,控制该机器人的AI系统才能获得最高奖励。

研究人员报告说,在经过9,000次训练(六天)的训练后,AI成功学会了解除障碍物。即使在将单个色彩通道的SSI替换为在多个色彩通道上汇总了奖励的SSI之后,AI还是设法学会了从原始传感器信息中提取出“各种各样”的不同对象。在另外一个环境中进行了4,000集(三天)的训练后,它学会了打杯子和球。

在未来的工作中,合著者打算集中精力扩展SSI,以自动生成奖励和奖励组合。他们写道:“我们认为,与广泛使用的成形奖励公式相比,我们的方法需要较少的先验知识,而成形奖励公式通常依赖于任务洞察力的定义和计算的状态估计,”“ SSI的定义很简单,域之间没有或只有很小的适应性。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。