BentoML
BentoML 允许您以 vLLM 作为后端部署大语言模型 (LLM) 服务器,从而公开兼容 OpenAI 的终端节点。您可以在本地提供模型,也可以将其容器化为符合 OCI 标准的镜像并将其部署在 Kubernetes 上。
有关详细信息,请参阅教程 BentoML 文档中的 vLLM 推理。
BentoML 允许您以 vLLM 作为后端部署大语言模型 (LLM) 服务器,从而公开兼容 OpenAI 的终端节点。您可以在本地提供模型,也可以将其容器化为符合 OCI 标准的镜像并将其部署在 Kubernetes 上。
有关详细信息,请参阅教程 BentoML 文档中的 vLLM 推理。