Version: Next

BentoML

BentoML 允许您以 vLLM 作为后端部署大语言模型 (LLM) 服务器，从而公开兼容 OpenAI 的终端节点。您可以在本地提供模型，也可以将其容器化为符合 OCI 标准的镜像并将其部署在 Kubernetes 上。

有关详细信息，请参阅教程 BentoML 文档中的 vLLM 推理。