在第一部分中,我们对我们的《糖果冲突》演示进行了总体概述。第二部分更深入地探讨了AI代理的设计方式。
三种类型的兔子角色
在演示中,所有三种类型的兔子代理看起来都是一样的,有相同的输入和输出。输入是以射线发射和矢量的形式给出的。你可以把射线发射看作是感知兔子周围环境的激光器,它们用于探测墙壁、鸡蛋以及与队友或对手的距离和角度。每个代理发出17条射线,蛋的位置也作为向量提供。总共有244个输入数据点。这些输入被送入一个NN模型,该模型输出代理人的运动或攻击行动。我们使用的NN模型具有简单的多层感知器(MLP)结构,有一个隐藏单元和64个隐藏单元。虽然这种模型结构对所有三种类型的兔子代理是共同的,但每种类型都有独特的政策,这意味着它们有不同的模型权重。
作者:Koki Mitsunami
文章来源:https://community.arm.com/arm-community-blogs/b/ai-and-ml-blog/posts/p2-multi-agent-reinforcement-learning
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区Arm技术专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。