继续探讨点Q*相关的话题,这个应该是目前X和Reddit上比较火的话题了,其实就是关于Q*的方法是不是让LLM变得会产生意识,会产生自己的好恶和对人类的偏见,关于Q-star的一些介绍可以看我上一篇的扫盲帖
RLAIF方法与传说中的函数'Q',揭露OpenAI那不为人知的Qstar计划 (qq.com)
我其实对这种人工智能可能毁灭人类的事情是有隐隐的担忧的。我和媳妇说,我觉得我从事的职业非常危险,可能会毁灭人类,当我媳妇了解了整件事情的前因后果的时候,她说:“你担心都有点多余了,就你的水平,OpenAI连访客卡都不会发给你,保安都不让你进门,人家开发人家的,跟你一毛钱关系都没有,你配担忧吗?”,我觉得她这话也没毛病,然后我的自责感就消失了......
现在很多大佬也都参与到了对Q*的讨论,杨丽坤和马斯克是肯定在的
杨丽坤的观点是:大家不用探讨Q*到底是什么,他认为这也只是OpenAI把对现在LLM官方的生成方案,从自回归变为Planning的一种方式而已, 实际上FAIR,DeepMind啥的也都在弄,顺手又吹NB说自己2016年就干过这事(要这么说,实际上他30年前就搞世界模型,到现在也没什么进展)
Musk更是直接贴了一个Q函数的公式,这个其实不如我上一篇帖子贴的那个,我那个看起来更好理解
回归点干货的分享,这个也是新哥贴在群里的,连论文地址也在里面了...
我用简单的语言解释,并给大家串讲一下
整个Q*的架构,推测有4个组成部分:
1- Policy LLM:其实就是Agent,Agent产生Policy,这个就是强化学习里的概念,但是这个Agent,是一个超乎寻常的东西,我们暂且称他为GPT-0,GPT-0是有能力解决实际问题,比如下棋你该走哪步,比如数学题你该从哪个方向入手,不是一般Agent能比,而且会进化
2- Value LLM:这个就是rewarding model,就是字面上的意思,但是它和我们以前理解的包括GPT-3和GPT-4训练时候用的rewarding model不太一样,以前的是对结果负责(排序),现在是每一步思考都要进行奖励排序,这每一步思考就是COT的每一个step,说白了有更强的控制力,这里给了一对名词:
- ORM:output-supervisor rewarding model,ORM就是我们传统玩RLHF那一套
- PRM:process-supervisor rewarding model,PRM比较新,原理是每个COT step都给你一个反馈
这里还说ORM过气了,不是特别擅长做credit assignment,其实就是想说如果PRM对COT来做对齐,对训练结果更有优势(有点planning的意思),还宣称ORM这种落后的生产力叫sparse reward,PRM这种新王叫做dense reward(正好和我讲过的MOE分类的方式是相反的..)
3- 图搜索:引入我之前谈及的图技术,他这里其实解释的某种程度上比我讲的还细致,但是总结起来是一样的。就是LLM广义上什么玩意都学,COT的时候一旦发散起来其实最终会偏离你初始任务(这个如果你平时总用COT是会发现的,steps一多起来,最后他就不知道你开始问的是啥了),那么需要TOT来规划。这个也好理解,TOT就是干这个的,整个任务的每个step都朝着得分最高的叶子节点前进,最终得到最优的答案。至于是不是有必要引入GOT,我个人是觉得TOT足以应付了,树状结构某种程度上比图状结构好弄,图搜索只是为了增加信息准确度的,因为这块大家也都是猜测,所以读者大人有好意见,也请留言
4- 真理信号和确认机制:这里还是用数学题的案例来讲
- 如果一个标准的数学题,OpenAI在训练的时候它见过,那么它就照葫芦画瓢,它就会做,但是实际上它不是会做,它只是比较余弦距离(或者OpenAI人家有自己的更好的距离算法)而已,生成出来的答案,要是没有训练过的数学题,那它就是乱做
- ORM这种原始方式来讲可以给做出来的题打分,强化训练让效果好一点,但是对没做过的题,它其实也是没法打分,或者乱打
- OpenAI应该是开发了一种可以把数学问题,转化为coding问题的编译器(甚至应该不只数学,估计everything都可以编译成coding),然后进行处理,这种转变让机器理解它到底在处理什么,这个我觉得如果是真的,那就是颠覆性的,和普通LLM处理问题的逻辑就不一样了
最后一个,也是我认为最炸裂的信息是policy LLM和value LLM他们两个会互相进化,这个其实还好;主要是他们会在决定哪些是最佳Q函数的时候,选择投喂他们认可的更好的知识,甚至可能因为有图系统的关系,会自己生成知识,反哺给图系统。这个就又回到比较让人担心的问题上,什么是最好的知识?最好的知识或者最客观的知识,一定是对人类有利的知识吗?
静待这个话题的发酵...