阿里云通义千问再升级:Qwen-VL视觉理解模型推出Max版本,多模态大模型研究获突破
1月26日消息,阿里云今日宣布在多模态大模型研究领域取得显著进展。据透露,通义千问的视觉理解模型Qwen-VL已经进行了重要升级,继之前的Plus版本后,再次推出了更为强大的Max版本。这一升级版模型在视觉推理和中文理解方面展现出了更为出色的能力,可以识别图片中的人物、回答问题、进行创作以及编写代码。在多个权威测评中,Qwen-VL-Plus和Qwen-VL-Max均取得了优异成绩,整体性能与GPT-4V和Gemini Ultra不相上下。
在各项评估中,Qwen-VL的两个升级版模型表现抢眼。它们在MMMU、MathVista等测评中远超业内其他开源模型,尤其在文档分析(DocVQA)和中文图像相关任务(MM-Bench-CN)上,更是超越了GPT-4V,达到了业界领先水平。这些模型不仅能够准确描述和识别图片中的信息,还能根据图片内容进行推理和创作,甚至具备了对画面指定区域进行问答的视觉定位能力。
在视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max展现出了强大的能力。它们能够理解流程图等复杂形式的图片,分析复杂图标,并且能够看图做题、看图作文、看图写代码。在图像文本处理方面,升级版Qwen-VL的中英文文本识别能力也得到了显著提升,支持处理百万像素以上的高清分辨率图和极端宽高比的图像,既能完整复现密集文本,也能从表格和文档中提取所需信息。
Qwen-VL-Max看图做题
据了解,多模态是当前大模型领域最具共识的发展方向。过去半年来,OpenAI、谷歌等科技巨头纷纷推出了自己的多模态模型。阿里云也在2023年8月发布了具备图文理解能力的Qwen-VL模型,并将其开源。该模型在同期表现中远超同等规模的通用模型,展现了强大的实力。
Qwen-VL-Max复现密集文本
视觉作为多模态能力中最重要的模态之一,占据了人类感知和认知世界信息的80%。通义千问的视觉语言模型基于通义千问LLM开发,通过将视觉表示学习模型与LLM对齐,为AI赋予了理解视觉信息的能力。这一创新在大语言模型的基础上开辟了一扇视觉的“窗”,为AI带来了更广阔的应用前景。
与LLM相比,多模态大模型在应用方面拥有更大的想象力。研究者们正在探索将多模态大模型与自动驾驶场景相结合,为实现“完全自动驾驶”寻找新的技术路径。同时,多模态模型还可以被部署到手机、机器人、智能音箱等端侧设备中,让智能设备能够自动理解物理世界的信息。此外,基于多模态模型开发的应用还可以辅助视力障碍群体的日常生活,为他们提供更多的便利。
目前,Qwen-VL-Plus和Qwen-VL-Max已经限时免费开放给用户使用。用户可以在通义千问的官网和APP上直接体验Max版本模型的能力,也可以通过阿里云的灵积平台(DashScope)调用模型的API进行使用。
最新更新
- 华为车BU再布局:新商标注册、全资子公司成立,智能车业务蓄势待发
- 欧盟对苹果发出严厉警告,App Store改革不力将遭重罚
- 亚马逊中国电脑端服务即将关闭,全新App和微信小程序带来更优质购物体验
- 传音控股豪气发放年终奖:员工奖金增发30%,业绩斐然赢得市场认可
- 曹德旺再掷90亿加码汽车玻璃产业,福耀玻璃全球布局持续扩张
- 苹果人均创收近1680万元,全球科技公司排名第二
- 阿里云通义千问再升级:Qwen-VL视觉理解模型推出Max版本,多模态大模型研究获突破
- vivo逆袭登顶:国产手机市场份额第一,AI与影像技术成制胜法宝
- 英特尔2023财报公布:全年收入下滑14%,CEO对前景保持乐观
- 乌兹别克斯坦总统米尔济约耶夫亲临比亚迪总部,共启新能源合作新篇章
推荐阅读
- 潮涌之江 光耀亚洲——杭州第十九届亚洲运动会开幕式侧记
- 你的第一本读书博主掘金指南,请查收
- 轻松百万的节奏!华为2022年全员分红吸睛:100%民企 公司任正非也说了不算
- 腾讯阿里华为立功!中国新科技世界第一 AI论文数量/质量超美国
- 步步高2022年最高预亏19.5亿元:猛增10倍
- 芯片“寒冬”波及台积电?预计一季度营收同比环比均将下滑
- 从内采平台到行业“链主”采购商城 京东工业服务陕建集团“华山云商”升级
- 苹果 Apple Card 自 2020 年以来让高盛亏损超过 10 亿美元
- TD启航|白手起家的“励志哥”的成长历程
- 华邦电子2022年12月营收为新台币64.78亿元 较去年同期减少24.74%