卷积神经网络（CNN）：基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类-CFANZ编程社区

文章目录

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

主要解决什么问题

大语言模型越来越大，效果越来越好。但是在一些具有挑战性的任务上面，比如arithmetic, commonsense, 和symbolic reasoning上面依旧不能够很好地去处理。

采用什么方法

如上图所示，作者在给定的QA示例里面，添加了一些中间推倒步骤，导致模型最终的输出能够正确。数学化描述就是将prompt组成<input, chain of thought, output>的方式。chain of though就是中间一系列的推倒过程。

chain of thought的好处如下（拆分复杂任务，可解释性更强，处理任务能力更强）:

实验分析与结果

Chain of thought的方法可以超越之前的finetune，和之前最好的效果。chain of thought在小模型上并没有提升，只有当模型大于100B的时候才会有这种效果。侧面反映了他们的instruct fine-tune不够，COT很难激发他的in-context 推理能力。

小模型产生的输出更加流畅，但是产生了不合乎逻辑的思维链，导致比standard prompt的输出结果更低。任务比较简单的话，也体现不出差异，如MAWSP，SVAMP这两个数据集上差异不明显，而GSM8K上任务比较复杂，差距就体现出来了。在100B以上模型效果很好，甚至超过了之前基于监督训练的SOTA模型 (橙色的线)。

是大模型在参数量大了之后拥有了COT的能力，还是通过instruct fine-tune给大模型注入了这个能力？值得考究。

消融实验

除此之外，作者还做了一些消融实验。

Equation only

具体prompt如下:

对于一两步能够推倒出来的，这个Equation不Equation最终效果都差不多。

Variable compute only

排除输入更长，消耗了更多计算量，模型思考更加仔细的影响。作者往prompt里面补充点号到prompt中，进行对比。发现效果也并不好，因此不是这个原因。

chain of thought after answer

<input, chain of thought, output>的顺序是比较重要的，把chain of thought放到后面变成<input, output, chain of thought>的话，效果就会变差。

鲁棒性测试

Commonsense Reasoning

Symbolic Reasoning

Task 1: Last letter concatenation: 名字拼接，比如“Amy Brown” → “yn”
Task 2: 硬币推理 “A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?”