Skip to main content
Version: Next

Llama Stack

*在线运行 vLLM 入门教程:零基础分步指南

vLLM 也可通过 Llama Stack 获取。

运行下面命令安装 Llama Stack:

pip install llama-stack -q

使用 OpenAI 兼容 API 进行推理

接下来,使用以下配置启动 Llama Stack 服务器,并将其指向您的 vLLM 服务器:

inference:
- provider_id: vllm0
provider_type: remote::vllm
config:
url: http://127.0.0.1:8000

请参考该引导获取更多关于远程 vLLM 提供程序的细节。

通过嵌入式 vLLM 进行推理

这里还提供了一个内联 vLLM 提供程序。以下是使用该方法的进行配置的示例:

inference
- provider_type: vllm
config:
model: Llama3.1-8B-Instruct
tensor_parallel_size: 4