TY -的A2 -戈麦斯,Carles盟——饶,宁非盟-徐,华盟——张,越盟——王,丹盟——江,Lei盟——彭,湘PY - 2022 DA - 2022/12/29 TI -联合优化通信干扰链接和功率控制的对策:可替换主体深层强化学习方法SP - 7962686六世- 2022 AB -由于nonconvexity特性最优控制等干扰链接选择和干扰功率分配问题,获得最优资源分配策略沟通对策场景是具有挑战性的。因此,我们提出一种新颖的基于可替换主体分散干扰资源分配算法深入强化学习(MADRL)提高干扰资源分配在战场通信的效率的对策。我们第一次模型的通信干扰资源分配问题作为一个完全合作可替换主体任务,考虑到干扰设备的合作关系(我)。然后,减轻非平稳特性和高决策维度的多重代理系统,我们引入一个集中培训与分散执行框架(CTDE),这意味着所有JEs训练与全球信息,只依靠当地的观察而做决定。后每个我获得一个去中心化的策略培训过程。随后,我们开发了可替换主体软actor-critic (MASAC)算法增强的探索能力代理之间的合作政策,加快学习代理利用最大熵准则的政策。最后,给出了仿真结果证明该MASAC算法优于现有的集中式分配基准算法。SN - 1530 - 8669你2022/7962686 / 10.1155——https://doi.org/10.1155/2022/7962686——摩根富林明——无线通信和移动计算PB - Hindawi KW - ER