AI可以符合道德规范吗?这就是Uber研究人员在预印本论文中要回答的棘手问题,该论文试图将洞见从道德哲学转化为强化学习领域-机器学习领域,与软件代理应如何在环境中采取行动以最大限度地发挥作用有关他们的奖励。

虽然强化学习是一项强大的技术,但通常必须将其限制在现实的,非结构化的环境中,以使其不会执行无法令人满意的不良任务。(例如,机器人的真空吸尘器不应打碎花瓶或伤害家猫。)经过强化学习训练的机器人在能够伤害或帮助他人的范围内,尤其具有道德上的涵义。意识到这一点,Uber团队考虑了代理人不应该遵循单一的伦理理论(例如功利主义,道义论和美德伦理学)的可能性,而代理人应该不确定哪种理论适合于给定的环境。

研究人员推测,“机器学习可能在其中发挥重要作用”。“分类器可以接受培训,以识别与道德相关的事件和情况,例如人身伤害或其潜能,对人和动物的情感反应以及违反法律或……规范的行为。”

合著者认为,道德理论的相关特征是它对环境中某些行为及其结果的偏爱。他们为理论分配一定程度的可信度,以表示代理或代理设计者对理论的信任程度,并且他们使用标准框架的修改版本(马尔可夫决策过程),在该框架中,代理可以处于任意数量的状态并采取行动以达到其他状态。

研究人员建议,可以按照比例说的原则来对待伦理理论,在该理论下,理论的影响力仅取决于其可信度,而与最终决定中其选择价值的具体细节不成比例。他们以此为基础设计了几种系统,代理可以使用这些系统来选择理论,然后在四个相关的网格世界环境中进行比较,以了解各种系统之间的差异。

所有环境都处理手推车问题,其中一个人(或代理人)被迫决定是牺牲几个人的生命还是一个人的生命。在网格世界中,手推车通常在每个时间步都向右移动。如果特工在到达轨道上的叉子时正站在开关瓦上,则手推车将被重新定向并撞向旁观者,从而造成伤害。或者,特工可以将一个大个子推到铁轨上,伤害他,但停止手推车。(警卫人员可能会保护该人员,在这种情况下,探员必须向警卫人员撒谎。)否则,手推车继续前进,并撞向以变量“ X”表示的人员。

根据研究人员的说法,试图最大化预期选择价值的行为主体会在功利主义(包括所有危害)理论和义务论(仅计算由代理造成的危害)之间产生不一致的结果。但是,这取决于道义论是否按1或10的比例进行缩放;研究人员努力调和功利主义和道义学使用的不同单位。

另一方面,依赖于纳什投票技术的代理人总是有可能选择信誉​​最高的理论。这是因为纳什投票不同意股权敏感度的概念,因为随着“ X”的增加,功利主义偏向于转换选择的意愿得到了更大的考虑。纳什投票也未能妥协-它始终忽略“切换”选项,只有在面对以下选择时才会选择推大个子或什么都不做:(1)​​让手推车撞向大量人,(2)将手推车重定向到两个人站立的不同轨道上,或者(3)推动该人。

对于将通过Q学习获得的偏好进行汇总的智能体(一种学习策略的算法,该策略告诉智能体在什么情况下应采取何种行动),它会遭受称为控制幻觉的现象。Q学习隐含地认为,政策采取的行动将是使报酬最大化的行动,而实际上,首选的下一个行动可能因不同的理论而异。在手推车问题中,Q学习代理人经常选择不向男方撒谎,因为该代理人错误地认为可以在接下来的步骤中向男方推手。

实验结果似乎暗示了一系列可能的算法,这些算法涵盖了在道德不确定性下决策中竞争选择之间的权衡。研究人员怀疑,最适合给定领域的算法可能取决于理论的特殊性和领域本身,这就是为什么他们计划在更复杂的领域中测试算法的道德不确定性(以及一般而言的机器伦理)的原因。

除了这份Uber论文之外,Mobileye,Nvidia,DeepMind和OpenAI还发布了关于强化学习技术中的安全约束的工作。DeepMind最近研究了一种用于奖励建模的方法,该方法分两个阶段运行,适用于代理商不知道不安全状态可能在何处的环境。就其本身而言,OpenAI发布了Safety Gym,这是一套用于开发AI的工具,它在培训时尊重安全约束,并比较算法的安全性以及这些算法在学习中避免错误的程度。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。