上海配资门户直到输出一段能稳定评价＂好状态＂与＂坏状态＂的代码

上海配资门户来源：股票市场配资平台网站：股票十倍杠杆日期：2026-03-01 05:29:07 查看：143

在经典 RL 流程里，智能体只有在撞了南墙、遍历海量状态后，才能慢慢学到怎么完成任务，样本效率极低。过去也有人引入大模型提示，但通常每换一个任务就得重新写 prompt、再调一次 API，既贵又难迁移。

来自南京大学章宗长俞扬团队和腾讯叶德珩团队的研究者们注意到，GPT 这类大模型已经内化了大量日常常识，如果能一次性让它总结出"在这个环境下普遍有用的行为准则"，那么后续所有任务都可以共享同一份知识，省去反复调用。

背景知识是怎么"炼"出来的？

什么是"环境背景知识"？通俗来说，就是对整个环境有用的常识，而不局限于某个具体任务。

例如在迷宫类环境中"不要碰墙壁，绕开障碍物"，在生存游戏中"优先捡取食物保持存活"等经验，都属于对该环境通用有益的知识。有了这些知识，智能体在执行任何特定任务时都能更有效率地探索。

研究者用 RND 算法在环境里进行随机探索和学习，把看到的状态、动作都存下来当"原料"。这些轨迹不带任何任务标签，保证提炼出的知识足够通用。接下来把轨迹描述交给 GPT，让它帮忙点评："哪些行为更像是合理、聪明的？" 具体有三种提炼套路，分别对应三条技术路线（论文称BK-CODE、BK-PREF、BK-GOAL）。

BK-CODE 让大模型直接写 Python 奖励函数，研究者迭代运行、再把结果反馈给 GPT-4 改进，直到输出一段能稳定评价"好状态"与"坏状态"的代码。

BK-PREF把两段轨迹丢给 GPT-4 做"二选一"，随后用基于 Bradley – Terry 模型的偏好学习方法把这些偏好信息转化为奖励信号。

BK-GOAL 请 GPT-4 根据轨迹列出可能的子目标（如"合成木镐"、"避开熔岩"），并在训练时计算当前状态与这些目标的相似度。

三条路线的共同点是：最后都会得到一个势函数 [ 数学公式 ] ，训练时额外加上形如 [ 数学公式 ] 的潜在奖励。根据经典理论，这样做不会改变原任务最优策略，而合理的势函数选择却能起到加快收敛的效果。最后，作者基于经典的 PPO 方法，在下游任务上加入奖励重塑（reward shaping）进行 RL 训练。

效果到底有多快？

论文在Minigrid和Crafter两个不同类型环境中进行了大量实验，验证了引入背景知识的奖励塑形对样本效率的提升效果。

在 Minigrid 的四个任务中（包括有的新目标物体类型和颜色是知识提取时未出现过的），三种变体均全面超越了现有的探索增强基线方法和基于语言的探索方法（如 RND、NovelD 等）。即使对于 LLM 从未"见过"的新任务类型，利用背景知识的智能体依然展现出明显优势，证明提取的知识确实具有任务无关性，可以泛化到新的目标。更难能可贵的是，提炼背景知识只需一次 LLM 调用，后续训练零 LLM 调用成本。