Version: Next

RLHF 基于人类反馈的强化学习

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 是一种利用人类生成的偏好数据微调语言模型的技术，以使模型输出与期望行为保持一致。

vLLM 可用于生成 RLHF 的补全内容。最佳实践是使用诸如 TRL、OpenRLHF 和 verl 等库。

如果您不想使用现有库，可以参考以下基础示例入门：