UT2014学习笔记-CFANZ编程社区

3.1 踢

之前：模仿另一个代理的现有踢球来学习从已知的起点进一步踢球。

现在：采取必要的步骤接近球后可靠地踢球。

改进的方法：通过学习为团队的全方位步行引擎设置的一个新的踢进方式步行参数。

目的：在目标点的一个小边界框内停止，同时保证代理不会超出该目标。

踢进方式：

“踢进方式”参数集根据以下公式更新X和Y方向上的目标行走速度：

其中：maxDecel[X，Y]和buffer的值是使用CMAES算法在一个任务上进行优化的，在这个任务中，机器人向上走到一个可以将球踢出的位置。机器人有12秒的时间到达可以踢球的位置，在优化过程中会得到以下奖励：

判断条件：是否能踢到球并从球的当前位置得分

可以得分：这样去做

不可以得分：将以10度方向增量对目标进行踢球采样，对于所有可行的踢球方向目标（那些没有将球踢出界外或向后太远的目标），代理将根据公式（1）为每个目标分配一个分数。

对公式1的解释：公式1奖励将球移向对手球门的踢腿，惩罚使球靠近对手的踢腿，也奖励靠近队友落地的踢腿。公式1的所有距离均以米为单位。选择的踢向是目标球位置得分最高的踢。当代理接近球（0.8米以内）时，其选择的踢向是固定的，并保持5秒，以防止在踢向之间的颠簸。

接下来：一旦一个代理决定了一个目标向它踢球，然后将这个目标广播给他的队友。然后，一对经纪人使用“踢预期”，根据球被踢后的预期位置，他们跑向场地上有利于接球的位置。分配到这些预期位置的代理由动态角色分配系统选择。

优势：这样一个去踢球的经纪人将在任何时候广播它打算踢球的地方，而不仅仅是在靠近球的时候，只要满足有时间踢球而不是运球的要求（没有对手在离球两米以内，没有对手比考虑踢球的经纪人更靠近球）。

通过延长经纪人在踢球前广播的时间，队友可以有更多的时间跑到预期的踢球地点，以便接到踢球经纪人的传球。另外，2014年新的队友避免在球被踢之前妨碍球的投射轨迹，以防止他们意外阻挡球。

之前的定位：仅使用对地标（四个角旗和球场两端的两个门柱）的观察以及里程计更新。

缺点：有时机器人会走出场地中央附近的边界，那里没有地标，迷失方向，再也不会回到赛场。

改进措施：在particle filter（种子过滤器）中增加了line information（线信息）

具体的实施：将观测到的最长K条谱线分别与场地存在的所有谱线的已知位置进行比较。使用端点之间的距离、直线之间的锐角和直线长度比等度量来确定观察直线与每条实际直线的相似性。对于每一条观察到的线，最高的相似度值被表示为一个概率，并用于更新种子。

结果：由于有线完全围绕着场地，假设一个机器人站起来，它应该总是能够看到至少一条线，如果它目前在球场上。如果机器人长时间（4秒）看不到一条线，机器人会自动假设它现在已经丢失并离开场地，这样机器人就会停止并原地转动，直到看到一条线重新定位。

此外，如果机器人看不到任何线条，它会向队友广播它不在场地。如果任何队友看到一个报告自己没有被定位的机器人，他们将广播未定位机器人的当前x、y位置和（2014年新增）定向角度，以便它可以使用其他机器人的观察来定位自己。根据经验，我们发现，在将线路数据纳入本地化后，我们的代理在离开现场时不再迷路。

优势：（1）开球能够得分（2）传球时使用踢预期（3）使用线数据

不同类型的机器人：（1）腿长的1型和3型步行速度最快（2）带脚趾的4型机器人也相对较快，比其他类型的机器人踢得更长更有力。

使用的机器人：（1）尽可能使用4型机器人（2）使用0型机器人在开球时得分（3）3型机器人跑的快（4）1型机器人进行守门，因为它的身体更大，有助于拦网投篮和良好的长距离射门。

（1）替补队员挑战赛也被称为特别小组挑战赛，是由从参赛者中随机挑选的不同队员组成的代理队互相比赛。每支参赛球队都会派出两名经纪人参加一支替补队员队伍，替补队员的比赛是10比10，没有守门员。挑战的一个重要方面是代理能够适应其队友的行为。

（2）在跑步挑战中，7个机器人被给予10秒的时间尽可能向前跑，然后根据他们的平均速度和双脚离地时间的百分比进行评分。

（3）在自由挑战赛期间，各小组就与他们团队相关的研究主题进行五分钟的演讲。然后，联盟中的每一支球队将前五名的表现进行排名。