Yi-VL-34B 是由零一万物推出的一款领先的开源多模态大型语言模型(LLM),它集成了视觉和语言处理能力,能够理解复杂的图像和文本内容,并进行多轮对话。作为全球首个开源的 34 亿参数视觉语言模型,Yi-VL-34B 在多模态基准测试中取得了卓越的成绩,尤其在 MMMU 和 CMMMU 测试中排名第一。
主要特点:
- 多轮文本-图像对话:能够处理文本和图像输入,并生成文本输出。
- 双语文本支持:支持英语和中文的对话,包括图像中的文字识别。
- 强大的图像理解能力:擅长分析视觉信息,是提取、组织和总结图像信息的有效工具。
- 高分辨率图像处理:支持高达 448×448 分辨率的图像理解。
模型评测
Yi-VL-34B 在多个基准测试中展现出其卓越的性能,特别是在以下两个领域:
- MMMU:多模态问题理解,测试模型对多学科多模态问题的理解能力。
- CMMMU:中文多模态问题理解,专门测试模型对中文多模态问题的理解能力。
Yi-VL-34B 的评测结果显示,它在处理复杂的多模态问题方面具有显著的优势,特别是在理解和生成与图像相关的信息方面。
部署使用
硬件要求
- Yi-VL-34B:推荐使用 4 × RTX 4090 或 A800 (80 GB) 等高性能 GPU。
部署步骤
- 获取模型:从 ModelScope 或 Hugging Face 下载 Yi-VL-34B 模型。
- 安装依赖:确保安装了必要的库和框架,如 PyTorch 和 Transformers。
- 加载模型:使用适当的加载函数加载模型。
- 准备输入:将图像和文本输入转换为模型可接受的格式。
- 运行模型:执行模型推理,获取输出结果。
示例代码
import torch
from transformers import AutoModel, AutoTokenizer
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("modelscope/Yi-VL-34B")
model = AutoModel.from_pretrained("modelscope/Yi-VL-34B")
# 准备输入
text = "What is in the image?"
image = "path_to_your_image.jpg"
# 编码文本和图像
inputs = tokenizer(text, image, return_tensors="pt")
# 运行模型
with torch.no_grad():
outputs = model(**inputs)
# 获取结果
result = outputs.logits
常见问题
Q1: 模型支持哪些语言?
A1: Yi-VL-34B 支持英语和中文的对话,包括图像中的文字识别。
Q2: 如何处理不同分辨率的图像?
A2: 所有输入图像在推理时会被调整到 448×448 分辨率。低分辨率图像可能会丢失一些细节,而高分辨率图像则不会增加额外的知识。
Q3: 模型是否会产生幻觉?
A3: 是的,Yi-VL-34B 可能会在某些情况下生成图像中不存在的内容,特别是在包含多个对象的场景中,可能会出现错误识别或描述不足的问题。
相关资源
模型下载
许可证
- Yi Series Models Community License Agreement 2.1: 适用于学术研究和商业用途,免费使用需申请。
通过这些资源,您可以更深入地了解和使用 Yi-VL-34B 模型,以及如何将其集成到您的项目中。