分析电脑上处理器的性能报告-CFANZ编程社区

模型效果取决于数据效果，但在精细度上控制不够，只是大力出奇迹，这样有很大的问题：

（1）数据量太多或者没有这方面的数据，模型学不会怎么办

（2）安全性问题，模型输出一些不该输出的东西

所以InstructGPT就是标一点数据然后把模型微调一下

Abstract

翻译：

增大语言模型的规模并不一定能使其更好地遵循用户的意图。例如，大型语言模型可能生成不真实、有毒或对用户毫无帮助的输出。换句话说，这些模型与用户并不一致。在这篇论文中，我们展示了一种通过使用人类反馈进行微调的方式来使语言模型与用户意图保持一致的方法，这适用于广泛的任务。从标注者编写的提示和通过 OpenAI API 提交的提示开始，我们收集了标注者展示所需模型行为的演示数据集，并使用这些数据集通过监督学习来微调 GPT-3。然后，我们收集了一个模型输出排名的数据集，用这些数据通过人类反馈的强化学习来进一步微调这个监督模型。我们将由此产生的模型称为 InstructGPT。在我们提示分布上的人类评估中，尽管参数数量减少了 100 倍，但1.3B参数的 InstructGPT 模型的输出还是优于 175B 参数的 GPT-3 的输出。此外，InstructGPT 模型在真实性方面有所提高，在生成有毒输出方面有所减少，同时在公共 NLP 数据集上的性能回退最小。尽管 InstructGPT 仍然会犯一些简单的错误，但我们的结果显示，使用人类反馈进行微调是将语言模型与人类意图保持一致的一个有希望的方向。

总结：

在人类的反馈上做微调

对输出的概率分布采样打标谁更好，排序，然后丢进强化学习学习策略