Q-star计划的更多细节-CFANZ编程社区

继续探讨点Q*相关的话题，这个应该是目前X和Reddit上比较火的话题了，其实就是关于Q*的方法是不是让LLM变得会产生意识，会产生自己的好恶和对人类的偏见,关于Q-star的一些介绍可以看我上一篇的扫盲帖

RLAIF方法与传说中的函数'Q'，揭露OpenAI那不为人知的Qstar计划 (qq.com)

我其实对这种人工智能可能毁灭人类的事情是有隐隐的担忧的。我和媳妇说，我觉得我从事的职业非常危险，可能会毁灭人类，当我媳妇了解了整件事情的前因后果的时候，她说：“你担心都有点多余了，就你的水平，OpenAI连访客卡都不会发给你，保安都不让你进门，人家开发人家的，跟你一毛钱关系都没有，你配担忧吗？”，我觉得她这话也没毛病，然后我的自责感就消失了......

现在很多大佬也都参与到了对Q*的讨论，杨丽坤和马斯克是肯定在的

Q-star计划的更多细节_人工智能

杨丽坤的观点是：大家不用探讨Q*到底是什么，他认为这也只是OpenAI把对现在LLM官方的生成方案，从自回归变为Planning的一种方式而已, 实际上FAIR,DeepMind啥的也都在弄，顺手又吹NB说自己2016年就干过这事（要这么说，实际上他30年前就搞世界模型，到现在也没什么进展）

Q-star计划的更多细节_图搜索_02

Musk更是直接贴了一个Q函数的公式，这个其实不如我上一篇帖子贴的那个，我那个看起来更好理解

回归点干货的分享，这个也是新哥贴在群里的，连论文地址也在里面了...

Q-star计划的更多细节_ORM_03

Q-star计划的更多细节_图搜索_04

Q-star计划的更多细节_ORM_05

我用简单的语言解释，并给大家串讲一下

整个Q*的架构，推测有4个组成部分：

1- Policy LLM：其实就是Agent，Agent产生Policy，这个就是强化学习里的概念，但是这个Agent，是一个超乎寻常的东西，我们暂且称他为GPT-0，GPT-0是有能力解决实际问题，比如下棋你该走哪步，比如数学题你该从哪个方向入手，不是一般Agent能比，而且会进化

2- Value LLM：这个就是rewarding model，就是字面上的意思，但是它和我们以前理解的包括GPT-3和GPT-4训练时候用的rewarding model不太一样，以前的是对结果负责（排序），现在是每一步思考都要进行奖励排序，这每一步思考就是COT的每一个step，说白了有更强的控制力，这里给了一对名词：

ORM：output-supervisor rewarding model，ORM就是我们传统玩RLHF那一套
PRM：process-supervisor rewarding model，PRM比较新，原理是每个COT step都给你一个反馈

这里还说ORM过气了，不是特别擅长做credit assignment，其实就是想说如果PRM对COT来做对齐，对训练结果更有优势（有点planning的意思），还宣称ORM这种落后的生产力叫sparse reward，PRM这种新王叫做dense reward（正好和我讲过的MOE分类的方式是相反的..）

3- 图搜索：引入我之前谈及的图技术，他这里其实解释的某种程度上比我讲的还细致，但是总结起来是一样的。就是LLM广义上什么玩意都学，COT的时候一旦发散起来其实最终会偏离你初始任务（这个如果你平时总用COT是会发现的，steps一多起来，最后他就不知道你开始问的是啥了），那么需要TOT来规划。这个也好理解，TOT就是干这个的，整个任务的每个step都朝着得分最高的叶子节点前进，最终得到最优的答案。至于是不是有必要引入GOT，我个人是觉得TOT足以应付了，树状结构某种程度上比图状结构好弄，图搜索只是为了增加信息准确度的，因为这块大家也都是猜测，所以读者大人有好意见，也请留言

4- 真理信号和确认机制：这里还是用数学题的案例来讲

如果一个标准的数学题，OpenAI在训练的时候它见过，那么它就照葫芦画瓢，它就会做，但是实际上它不是会做，它只是比较余弦距离（或者OpenAI人家有自己的更好的距离算法）而已，生成出来的答案，要是没有训练过的数学题，那它就是乱做
ORM这种原始方式来讲可以给做出来的题打分，强化训练让效果好一点，但是对没做过的题，它其实也是没法打分，或者乱打
OpenAI应该是开发了一种可以把数学问题，转化为coding问题的编译器（甚至应该不只数学，估计everything都可以编译成coding），然后进行处理，这种转变让机器理解它到底在处理什么，这个我觉得如果是真的，那就是颠覆性的，和普通LLM处理问题的逻辑就不一样了

最后一个，也是我认为最炸裂的信息是policy LLM和value LLM他们两个会互相进化，这个其实还好；主要是他们会在决定哪些是最佳Q函数的时候，选择投喂他们认可的更好的知识，甚至可能因为有图系统的关系，会自己生成知识，反哺给图系统。这个就又回到比较让人担心的问题上，什么是最好的知识？最好的知识或者最客观的知识，一定是对人类有利的知识吗？

静待这个话题的发酵...

Q-star计划的更多细节_图搜索_06