注册表 (Registry)
模块内容
class vllm.multimodal.registry.ProcessingInfoFactory(*args, **kwargs)
从上下文中构建一个 MultiModalProcessor 实例。
class vllm.multimodal.registry.DummyInputsBuilderFactory(*args, **kwargs)
从上下文中构建一个 BaseDummyInputsBuilder 实例。
class vllm.multimodal.registry.MultiModalProcessorFactory(*args, **kwargs)
从上下文中构建一个 MultiModalProcessor 实例。
class vllm.multimodal.registry.MultiModalRegistry
一个根据模型分派数据处理的注册表。
get_max_tokens_per_item_by_modality(model_config: ModelConfig) → Mapping[str, int]
根据底层模型配置,从每种模式中获取每个数据项的最大 token 数。
get_max_tokens_per_item_by_nonzero_modality(model_config: ModelConfig) → Mapping[str, int]
根据底层模型配置,从每个模态中获取每个数据项的最大令牌数,不包括用户通过 _mm_per_prompt 显式禁用的模态。
注意
目前仅在 V1 中直接用于分析模型的内存使用情况。
get_max_tokens_by_modality(model_config: ModelConfig) → Mapping[str, int]
从每种模态中获取用于分析模型的内存使用情况的最大 token 数。
有关更多详细信息,请参阅 MultiModalPlugin.get_max_multimodal_tokens()。
get_max_multimodal_tokens(model_config: ModelConfig) → int
获取用于分析模型内存使用情况的多模态 token 的最大数量。
有关更多详细信息,请参阅 MultiModalPlugin.get_max_multimodal_tokens()。
get_mm_limits_per_prompt(model_config: ModelConfig) → Mapping[str, int]
获取模型类的每个提示允许的每种模态的最大多模态输入实例数。
register_processor(processor: MultiModalProcessorFactory[_I], *, info: ProcessingInfoFactory[_I], dummy_inputs: DummyInputsBuilderFactory[_I])
将多模态处理器注册到模型类。处理器是惰性构造的,因此应该传递一个工厂方法。
当模型接收到多模态数据时,将调用提供的函数以将数据转换为模型输入的字典。
create_processor(model_config: ModelConfig, *, tokenizer: transformers.PreTrainedTokenizer | transformers.PreTrainedTokenizerFast | TokenizerBase | None = None, disable_cache: bool | None = None) → BaseMultiModalProcessor[BaseProcessingInfo]
为特定模型和分词器创建多模态处理器。
get_decoder_dummy_data(model_config: ModelConfig, seq_len: int, mm_counts: Mapping[str, int] | None = None) → DummyDecoderData
创建虚拟数据以分析模型的内存使用情况。
模型由 model_config 标识。
get_encoder_dummy_data(model_config: ModelConfig, seq_len: int, mm_counts: Mapping[str, int] | None = None) → DummyEncoderData
创建虚拟数据以分析模型的内存使用情况。
模型由 model_config 标识。