公司
发布日期 2024-06-27
分类
多模态模型
类型 开源
参数34B

Yi-VL-34B 是由零一万物推出的一款领先的开源多模态大型语言模型(LLM),它集成了视觉和语言处理能力,能够理解复杂的图像和文本内容,并进行多轮对话。作为全球首个开源的 34 亿参数视觉语言模型,Yi-VL-34B 在多模态基准测试中取得了卓越的成绩,尤其在 MMMU 和 CMMMU 测试中排名第一。

主要特点:

  • 多轮文本-图像对话:能够处理文本和图像输入,并生成文本输出。
  • 双语文本支持:支持英语和中文的对话,包括图像中的文字识别。
  • 强大的图像理解能力:擅长分析视觉信息,是提取、组织和总结图像信息的有效工具。
  • 高分辨率图像处理:支持高达 448×448 分辨率的图像理解。

模型评测

Yi-VL-34B 在多个基准测试中展现出其卓越的性能,特别是在以下两个领域:

  • MMMU:多模态问题理解,测试模型对多学科多模态问题的理解能力。
  • CMMMU:中文多模态问题理解,专门测试模型对中文多模态问题的理解能力。

Yi-VL-34B 的评测结果显示,它在处理复杂的多模态问题方面具有显著的优势,特别是在理解和生成与图像相关的信息方面。

部署使用

硬件要求

  • Yi-VL-34B:推荐使用 4 × RTX 4090 或 A800 (80 GB) 等高性能 GPU。

部署步骤

  1. 获取模型:从 ModelScope 或 Hugging Face 下载 Yi-VL-34B 模型。
  2. 安装依赖:确保安装了必要的库和框架,如 PyTorch 和 Transformers。
  3. 加载模型:使用适当的加载函数加载模型。
  4. 准备输入:将图像和文本输入转换为模型可接受的格式。
  5. 运行模型:执行模型推理,获取输出结果。

示例代码

import torch
from transformers import AutoModel, AutoTokenizer

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("modelscope/Yi-VL-34B")
model = AutoModel.from_pretrained("modelscope/Yi-VL-34B")

# 准备输入
text = "What is in the image?"
image = "path_to_your_image.jpg"

# 编码文本和图像
inputs = tokenizer(text, image, return_tensors="pt")

# 运行模型
with torch.no_grad():
    outputs = model(**inputs)

# 获取结果
result = outputs.logits

常见问题

Q1: 模型支持哪些语言?

A1: Yi-VL-34B 支持英语和中文的对话,包括图像中的文字识别。

Q2: 如何处理不同分辨率的图像?

A2: 所有输入图像在推理时会被调整到 448×448 分辨率。低分辨率图像可能会丢失一些细节,而高分辨率图像则不会增加额外的知识。

Q3: 模型是否会产生幻觉?

A3: 是的,Yi-VL-34B 可能会在某些情况下生成图像中不存在的内容,特别是在包含多个对象的场景中,可能会出现错误识别或描述不足的问题。

相关资源

模型下载

许可证

  • Yi Series Models Community License Agreement 2.1: 适用于学术研究和商业用途,免费使用需申请。

通过这些资源,您可以更深入地了解和使用 Yi-VL-34B 模型,以及如何将其集成到您的项目中。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
搜索