监督微调（SFT）让AI学会"会说话"，即提供有帮助、相关、安全的回答；而RLHF让AI"话"，即掌握基本的语言表达能力。

精华吧→答案→超星尔雅学习通未分类

A、正确

B、错误

正确答案：B

答案解析：监督微调（SFT）和基于人类反馈的强化学习（RLHF）的作用描述颠倒了。

监督微调（SFT）是通过在有标记的数据上进行训练，让模型掌握基本的语言表达能力，使模型能够根据输入生成合理的文本，即学会“说话”。在这个过程中，研究人员会准备大量输入-输出对（例如问题-答案对）来微调预训练模型，让模型学习到如何针对特定输入给出合适回应。

而基于人类反馈的强化学习（RLHF）则是利用人类的反馈来进一步优化模型的输出，使其回答更加有帮助、相关和安全。人类评估者会对模型的多个输出进行排序或打分，模型根据这些反馈调整参数，从而学会生成更符合人类期望的回答，也就是学会“好好说话”。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 11:33:46