Skip to main content
Version: Next

RLHF 基于人类反馈的强化学习

*在线运行 vLLM 入门教程:零基础分步指南

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 是一种利用人类生成的偏好数据微调语言模型的技术,以使模型输出与期望行为保持一致。

vLLM 可用于生成 RLHF 的补全内容。最佳实践是使用诸如 TRLOpenRLHF 和 verl 等库。

如果您不想使用现有库,可以参考以下基础示例入门: