阿里通义千问Qwen-VL多模态大模型官网下载部署使用教程

公司	阿里巴巴
发布日期	2024-03-15
分类	多模态模型
类型	开源
体验网址	点击使用

Qwen-VL，全称Qwen Large Vision Language Model，是由阿里云研发的大规模视觉语言模型。它结合了深度学习和人工智能领域的最新进展，旨在处理和理解图像与文本之间的复杂关系。Qwen-VL模型的创新之处在于其能够接受图像、文本和边界框作为输入，并生成文本和边界框作为输出，这使得它在多模态任务中表现出色。

核心特性

多语言支持：Qwen-VL不仅支持中文，还能够处理英文等多种语言，使其成为跨文化交流的强大工具。
细粒度识别：模型采用448分辨率的输入，相较于其他模型的224分辨率，能够进行更精细的图像识别和理解。
多图输入：Qwen-VL能够处理多张图片的输入，支持图片间的比较和多图文学创作。
端到端识别：模型能够直接从图像中识别和理解文本，无需额外的图像处理步骤。

模型评测

Qwen-VL在多个标准基准上进行了全面的评测，以验证其性能和效果。

英文标准基准

Zero-shot Captioning：在Flickr30K数据集上，Qwen-VL取得了SOTA（State of the Art）的结果，显示出其在未见数据集上的图片描述能力。
General VQA：在VQAv2和OK-VQA数据集上，Qwen-VL同样展现了其在通用问答任务上的强大能力。

中文定位任务

RefCOCO：在RefCOCO数据集上，Qwen-VL在多个子任务上均取得了SOTA，证明了其在中文定位任务上的优势。

TouchStone评测

TouchStone：这是一个基于GPT4打分的评测基准，Qwen-VL在中英文评测中均取得了优异的成绩，显示出其在图文对话能力和与人类对齐水平上的优势。

部署使用

部署Qwen-VL模型需要遵循一系列步骤，以确保模型能够正确运行并发挥其功能。

环境准备

确保系统安装了Python 3.8或以上版本。
安装PyTorch 1.12或以上版本，推荐使用2.0或以上版本。
如果使用GPU，建议使用CUDA 11.4或以上版本。

安装依赖

通过pip安装所需的依赖库：

pip install modelscope -U
pip install transformers accelerate tiktoken -U
pip install einops transformers_stream_generator -U
pip install "pillow==9.*" -U
pip install torchvision
pip install matplotlib -U

模型下载与初始化

使用ModelScope提供的API下载模型并初始化：

from modelscope import snapshot_download, AutoModelForCausalLM, AutoTokenizer, GenerationConfig

model_id = 'qwen/Qwen-VL'
revision = 'v1.0.3'
model_dir = snapshot_download(model_id, revision=revision)

tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, fp16=True).eval()

模型使用

编写代码以使用模型进行图像和文本的处理：

query = tokenizer.from_list_format([
    {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'},
    {'text': 'Generate the caption in English with grounding:'},
])
inputs = tokenizer(query, return_tensors='pt')
inputs = inputs.to(model.device)
pred = model.generate(**inputs)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False)
print(response)

常见问题

在使用Qwen-VL模型时，用户可能会遇到一些常见问题，以下是一些常见问题及其解答。

Q: 如何解决模型在特定硬件上的性能问题？

A: 确保您的硬件满足模型的最低要求，并根据硬件配置调整模型的运行参数，例如使用适当的精度模式（如fp16或bf16）。

Q: 如何处理模型输出的边界框不准确的情况？

A: 边界框的准确性可能受到多种因素的影响，包括输入图像的分辨率和质量。尝试调整输入图像的分辨率或使用更高分辨率的图像。

Q: 如何在不同的操作系统上部署Qwen-VL模型？

A: 部署步骤在不同的操作系统上大致相同，但可能需要根据操作系统调整环境配置和依赖库的安装方式。

{{userData.name}}已认证

Qwen-VL

核心特性

模型评测

英文标准基准

中文定位任务

TouchStone评测

部署使用

环境准备

安装依赖

模型下载与初始化

模型使用

常见问题

Q: 如何解决模型在特定硬件上的性能问题？

Q: 如何处理模型输出的边界框不准确的情况？

Q: 如何在不同的操作系统上部署Qwen-VL模型？

相关资源

Qwen-VL-Chat

Qwen-VL-Max

Yi-VL-6B

GPT-4o

GPT-4o mini

Janus-Pro

DeepSeek-R1

Llama3.1-405B

Doubao-Pro

阿里巴巴

零一万物

Meta

DeepSeek

Stability AI