监督微调(SFT)让AI学会"会说话",即提供有帮助、相关、安全的回答;而RLHF让AI"话",即掌握基本的语言表达能力。
监督微调(SFT)让AI学会"会说话",即提供有帮助、相关、安全的回答;而RLHF让AI"话",即掌握基本的语言表达能力。
A、正确
B、错误
正确答案:B
答案解析:监督微调(SFT)和基于人类反馈的强化学习(RLHF)的作用描述颠倒了。
监督微调(SFT)是通过在有标记的数据上进行训练,让模型掌握基本的语言表达能力,使模型能够根据输入生成合理的文本,即学会“说话”。在这个过程中,研究人员会准备大量输入-输出对(例如问题-答案对)来微调预训练模型,让模型学习到如何针对特定输入给出合适回应。
而基于人类反馈的强化学习(RLHF)则是利用人类的反馈来进一步优化模型的输出,使其回答更加有帮助、相关和安全。人类评估者会对模型的多个输出进行排序或打分,模型根据这些反馈调整参数,从而学会生成更符合人类期望的回答,也就是学会“好好说话”。
Tag:动手学AI人工智能通识与实践
时间:2025-11-16 11:33:46