公司
发布日期 2024-03-15
分类
多模态模型
类型 开源
体验网址点击使用

Qwen-VL-Chat 是阿里云推出的一款先进的大规模视觉语言模型(LVLM),旨在通过结合图像和文本的输入,提供更丰富的多模态交互体验。该模型不仅在技术上具有创新性,还在多语言支持和细粒度识别方面表现出色。

关键特性

  • 多模态输入输出:Qwen-VL-Chat 能够处理图像、文本和检测框作为输入,并生成文本和检测框作为输出。
  • 多语言对话:支持中英双语的长文本识别,增强了跨语言的交互能力。
  • 多图交互:支持多图输入和比较,能够进行图片间的问答和文学创作。
  • 中文定位支持:通过中文开放域语言表达进行检测框标注,提升了模型的本地化应用能力。
  • 高分辨率处理:448分辨率的图像输入,提升了模型在细粒度文字识别和文档问答方面的表现。

模型评测

Qwen-VL-Chat 在多项标准英文评测基准上展示了其卓越的性能,包括 Zero-shot Caption、General VQA、Text-based VQA 和 Referring Expression Comprehension。此外,它在 TouchStone 评测中,一个基于 GPT4 打分系统的图文对话能力评测,也取得了优异的成绩,证明了其与人类对齐的高水平。

评测亮点

  • Zero-shot Captioning:在 Flickr30K 数据集上取得 SOTA 结果。
  • General VQA:在同等规模 LVLM 模型中取得 SOTA 结果。
  • TouchStone:在中英文评测中均获得最佳对齐评分。

部署使用

Qwen-VL-Chat 提供了灵活的部署选项,支持通过 Web、API、WeChat、Discord 等多种方式进行交互。用户可以通过提供的 Python 代码快速开始使用模型,进行图像和文本的输入处理。

快速部署

  • 环境依赖:Python 3.8+,PyTorch 1.12+,推荐 CUDA 11.4+。
  • 安装命令
    pip install modelscope -U
    pip install transformers accelerate tiktoken -U
    pip install einops transformers_stream_generator -U
    pip install "pillow==9.*" -U
    pip install torchvision
    pip install matplotlib -U
    
  • 代码示例
    from modelscope import (
        snapshot_download, AutoModelForCausalLM, AutoTokenizer, GenerationConfig
    )
    import torch
    
    model_id = 'qwen/Qwen-VL-Chat'
    revision = 'v1.1.0'
    
    model_dir = snapshot_download(model_id, revision=revision)
    torch.manual_seed(1234)
    
    tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, fp16=True).eval()
    
    query = tokenizer.from_list_format([
        {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'},
        {'text': '这是什么'},
    ])
    response, history = model.chat(tokenizer, query=query, history=None)
    print(response)
    

常见问题

Qwen-VL-Chat 的用户可能会遇到的问题包括安装配置、模型调用、性能优化等。官方提供了 FAQ 以及 issue 区域,用户可以在这些资源中寻找解决方案或提交新问题。

    • Q: 如何安装和配置 Qwen-VL-Chat?
      • A: 请按照上述提供的安装命令进行安装,并确保你的系统满足所有环境依赖。
    • Q: 如何处理模型调用中的错误?
      • A: 检查你的输入格式是否正确,并参考文档中的代码示例。如果问题依然存在,可以在 issue 区域提交详细的问题描述。
    • Q: 如何优化模型的性能?
      • A: 可以尝试使用不同的硬件配置或调整模型的精度设置(如 bf16 或 fp16)。

Issue 区域

相关资源

Qwen-VL-Chat 的用户可以访问以下资源获取更多信息和支持:

Qwen-VL-Chat 作为阿里云推出的先进视觉语言模型,不仅在技术上达到了高标准,同时也为用户提供了丰富的资源和支持,以促进其在多种应用场景中的使用和创新。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
搜索