积极的情感性表现作为与他人互动的特征,已与学习中的兴趣、好奇心以及满意度提高密切相关。为此Microsoft研究人员开发了一个框架,该框架包括一种通过愉悦之类的动机来激励主体的机制。该框架包括:❶一个可以预测人类的微笑反应内在奖励机制。❷可学习概括策略的连续的决策框架。❸ 积极的内在情感模型,用于改变行为选择,使其偏向于提供更好的内在回报的行为。❹ 使用在代理探索过程中收集的数据来构建视觉识别和理解任务的表示的组件。
为了测试这个框架,研究人员收集了5名受试者的数据,这些受试者的任务是用车辆探索一个数字三维迷宫,并用同步镜头记录每个人脸上的表情。参与者仅被告知探索环境,受试过程中由开源算法计算和记录他们的微笑反应。
实验结果表明,该框架提高了安全性,同时实现了有效的学习。与基线相比,研究人员的内在奖励政策在迷宫中的覆盖面积增加了46%,与障碍物的碰撞时间减少了29%。
KYLE WIGGERS,20191227,https://venturebeat.com/2019/...