188bet体育t_188bet投注网站

TY - Jour A2 - Vialatte，Francois B. Au - Mousavi，Amin Au - Nadjar Araabi，Babak Au - Nili Ahmadabadi，Majid Py - 2014 DA - 2014/12/31使用动作值函数的加固学习中的上下文传输- 428567 VL - 2014 AB - 本文讨论了加固学习任务中的背景转移的概念。如本文所定义的上下文传输意味着与共享相同环境动态和奖励功能的源和目标任务之间的知识传输，但具有不同的状态或动作空间。换句话说，代理商在使用不同的传感器和执行器时学习相同的任务。这需要存在底层的公共马尔可夫决策过程（MDP）可以映射所有代理商的MDP。这是根据MDP同性恋的概念制定的。学习框架是问： -学习。为了在这些任务之间传输知识，将特征空间用作转换器，并且表示为不同任务的状态动作空间之间的部分映射。这问： - 在源任务的学习过程中学到的值映射到该组问： - 目标任务的值。这些转移了问： -values合并在一起，用来初始化目标任务的学习过程。基于间隔的方法用于表示和合并源任务的知识。经验结果表明，转移的初始化可能有利于目标任务的学习过程。SN - 1687-5265 UR - https://doi.org/10.1155/2014/428567 Do - 10.1155/2014 / 428567 JF - 计算智能和神经科学PB - Hindwi Publishing CorporationKW - ER -