Skip to main content
Version: Next

注册表 (Registry)

*在线运行 vLLM 入门教程:零基础分步指南

模块内容

class vllm.multimodal.registry.ProcessingInfoFactory(*args, **kwargs)

[source]

从上下文中构建一个 MultiModalProcessor 实例。

class vllm.multimodal.registry.DummyInputsBuilderFactory(*args, **kwargs)

[source]

从上下文中构建一个 BaseDummyInputsBuilder 实例。

class vllm.multimodal.registry.MultiModalProcessorFactory(*args, **kwargs)

[source]

从上下文中构建一个 MultiModalProcessor 实例。

class vllm.multimodal.registry.MultiModalRegistry

[source]

一个根据模型分派数据处理的注册表。

get_max_tokens_per_item_by_modality(model_config: ModelConfig) → Mapping[str, int]

[source]#

根据底层模型配置,从每种模式中获取每个数据项的最大 token 数。

get_max_tokens_per_item_by_nonzero_modality(model_config: ModelConfig) → Mapping[str, int]

[source]#

根据底层模型配置,从每个模态中获取每个数据项的最大令牌数,不包括用户通过 _mm_per_prompt 显式禁用的模态。

注意

目前仅在 V1 中直接用于分析模型的内存使用情况。

get_max_tokens_by_modality(model_config: ModelConfig) → Mapping[str, int]

[source]#

从每种模态中获取用于分析模型的内存使用情况的最大 token 数。

有关更多详细信息,请参阅 MultiModalPlugin.get_max_multimodal_tokens()

get_max_multimodal_tokens(model_config: ModelConfig) → int

[source]#

获取用于分析模型内存使用情况的多模态 token 的最大数量。

有关更多详细信息,请参阅 MultiModalPlugin.get_max_multimodal_tokens()

get_mm_limits_per_prompt(model_config: ModelConfig) → Mapping[str, int]

[source]#

获取模型类的每个提示允许的每种模态的最大多模态输入实例数。

register_processor(processor: MultiModalProcessorFactory[_I], *, info: ProcessingInfoFactory[_I], dummy_inputs: DummyInputsBuilderFactory[_I])

[source]#

将多模态处理器注册到模型类。处理器是惰性构造的,因此应该传递一个工厂方法。

当模型接收到多模态数据时,将调用提供的函数以将数据转换为模型输入的字典。

create_processor(model_config: ModelConfig, *, tokenizer: transformers.PreTrainedTokenizer | transformers.PreTrainedTokenizerFast | TokenizerBase | None = None, disable_cache: bool | None = None) → BaseMultiModalProcessor[BaseProcessingInfo]

[source]#

为特定模型和分词器创建多模态处理器。

get_decoder_dummy_data(model_config: ModelConfig, seq_len: int, mm_counts: Mapping[str, int] | None = None) → DummyDecoderData

[source]#

创建虚拟数据以分析模型的内存使用情况。

模型由 model_config 标识。

get_encoder_dummy_data(model_config: ModelConfig, seq_len: int, mm_counts: Mapping[str, int] | None = None) → DummyEncoderData

[source]#

创建虚拟数据以分析模型的内存使用情况。

模型由 model_config 标识。