Yi-VL-34B大模型官网下载本地部署使用微调教程

公司	零一万物
发布日期	2024-06-27
分类	多模态模型
类型	开源
参数	34B

Yi-VL-34B 是由零一万物推出的一款领先的开源多模态大型语言模型（LLM），它集成了视觉和语言处理能力，能够理解复杂的图像和文本内容，并进行多轮对话。作为全球首个开源的 34 亿参数视觉语言模型，Yi-VL-34B 在多模态基准测试中取得了卓越的成绩，尤其在 MMMU 和 CMMMU 测试中排名第一。

主要特点：

多轮文本-图像对话：能够处理文本和图像输入，并生成文本输出。
双语文本支持：支持英语和中文的对话，包括图像中的文字识别。
强大的图像理解能力：擅长分析视觉信息，是提取、组织和总结图像信息的有效工具。
高分辨率图像处理：支持高达 448×448 分辨率的图像理解。

模型评测

Yi-VL-34B 在多个基准测试中展现出其卓越的性能，特别是在以下两个领域：

MMMU：多模态问题理解，测试模型对多学科多模态问题的理解能力。
CMMMU：中文多模态问题理解，专门测试模型对中文多模态问题的理解能力。

Yi-VL-34B 的评测结果显示，它在处理复杂的多模态问题方面具有显著的优势，特别是在理解和生成与图像相关的信息方面。

部署使用

硬件要求

Yi-VL-34B：推荐使用 4 × RTX 4090 或 A800 (80 GB) 等高性能 GPU。

部署步骤

获取模型：从 ModelScope 或 Hugging Face 下载 Yi-VL-34B 模型。
安装依赖：确保安装了必要的库和框架，如 PyTorch 和 Transformers。
加载模型：使用适当的加载函数加载模型。
准备输入：将图像和文本输入转换为模型可接受的格式。
运行模型：执行模型推理，获取输出结果。

示例代码

import torch
from transformers import AutoModel, AutoTokenizer

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("modelscope/Yi-VL-34B")
model = AutoModel.from_pretrained("modelscope/Yi-VL-34B")

# 准备输入
text = "What is in the image?"
image = "path_to_your_image.jpg"

# 编码文本和图像
inputs = tokenizer(text, image, return_tensors="pt")

# 运行模型
with torch.no_grad():
    outputs = model(**inputs)

# 获取结果
result = outputs.logits

常见问题

Q1: 模型支持哪些语言？

A1: Yi-VL-34B 支持英语和中文的对话，包括图像中的文字识别。

Q2: 如何处理不同分辨率的图像？

A2: 所有输入图像在推理时会被调整到 448×448 分辨率。低分辨率图像可能会丢失一些细节，而高分辨率图像则不会增加额外的知识。

Q3: 模型是否会产生幻觉？

A3: 是的，Yi-VL-34B 可能会在某些情况下生成图像中不存在的内容，特别是在包含多个对象的场景中，可能会出现错误识别或描述不足的问题。

{{userData.name}}已认证

Yi-VL-34B

模型评测

部署使用

硬件要求

部署步骤

示例代码

常见问题

Q1: 模型支持哪些语言？

Q2: 如何处理不同分辨率的图像？

Q3: 模型是否会产生幻觉？

相关资源

模型下载

许可证

Qwen-VL-Chat

Qwen-VL-Max

Qwen-VL

GPT-4 Turbo

GPT-4o mini

Janus-Pro

DeepSeek-R1

Llama3.1-405B

DeepSeek-V2

阿里巴巴

零一万物

Meta

DeepSeek

Stability AI