阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行


阿里巴巴开源了一个新的大模型,非常令人兴奋~

继通义千问-7B(Qwen-7B)之后,阿里云又推出了大规模视觉语言模型Qwen-VL,并且一上线就直接开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL是一种基于通义千问-7B的多模态大模型,具体而言,它支持图像、文本和检测框等多种输入,并且不仅仅可以输出文本,还可以输出检测框

举个例子,我们输入一张阿尼亚的图片,通过问答的形式,Qwen-VL-Chat能够总结图片内容,并且能够准确地定位到图片中的阿尼亚

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

在测试任务中,Qwen-VL展现出了“六边形战士”的实力,在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了最先进的成果

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

一经开源消息传出,立刻引起了广泛关注

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

让我们一起来看看具体的表现如何吧!

首个支持中文开放域定位的通用模型

首先,让我们来整体看一下Qwen-VL系列模型的特点:

  • 多语言对话:支持多语言对话,端到端支持图片里中英双语的长文本识别;
  • 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
  • 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注,也就是能在画面中精准地找到目标物体;
  • 细粒度识别和理解:相比于目前其它开源LVLM(大规模视觉语言模型)使用的224分辨率,Qwen-VL是首个开源的448分辨率LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

在不改变原意的情况下,需要重写的内容是:Qwen-VL可以在知识问答、图像问答、文档问答、细粒度视觉定位等场景中使用

例如,有一个外国朋友不懂中文去医院看病,对着导览图感到困惑,不知道如何前往相应的科室,可以直接将图和问题交给Qwen-VL,让它根据图片信息充当翻译

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

再次进行多图输入和比较的测试

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

尽管没有认出阿尼亚,但情绪判断确实相当准确(手动狗头)

在视觉定位能力方面,即使图片非常复杂且人物众多,Qwen-VL仍然可以根据要求准确地找出*和蜘蛛侠

网易人工智能 网易人工智能

网易数帆多媒体智能生产力平台

网易人工智能 233 查看详情 网易人工智能

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL在技术细节上以Qwen-7B为基座语言模型,并通过引入视觉编码器ViT和位置感知的视觉语言适配器,使得模型能够支持视觉信号输入

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

具体的训练过程分为三步:

  • 预训练:只优化视觉编码器和视觉语言适配器,冻结语言模型。使用大规模图像-文本配对数据,输入图像分辨率为224x224。
  • 多任务预训练:引入更高分辨率(448x448)的多任务视觉语言数据,如VQA、文本VQA、指称理解等,进行多任务联合预训练。
  • 监督微调:冻结视觉编码器,优化语言模型和适配器。使用对话交互数据进行提示调优,得到最终的带交互能力的Qwen-VL-Chat模型。

在Qwen-VL的标准英文测评中,研究人员对四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)进行了测试

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

根据结果显示,Qwen-VL在与同等尺寸的开源LVLM进行比较时取得了最佳效果

另外,研究人员构建了一套基于GPT-4打分机制的测试集TouchStone

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL-Chat在这项对比测试中取得了最先进技术水平(SOTA)

如果你对Qwen-VL感兴趣,你可以在魔搭社区和huggingface上找到demo来直接试玩。链接在文末提供

Qwen-VL支持研究人员和开发者进行二次开发,并且允许商业使用。但需要注意的是,如果要进行商业使用,需要先填写问卷申请

项目链接:https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/QwenLM/Qwen-VL

请点击以下链接查看论文:https://arxiv.org/abs/2308.12966

以上就是阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行的详细内容,更多请关注其它相关文章!


# 更高  # 如何推广营销柜子  # 鹤壁企业营销推广  # 高端的网站建设公司  # 仙湖网站优化排名  # 网站列表页优化  # seo渠道推广怎么做  # 跨国网站架构优化  # 官网的网站建设收费  # 浙江seo排名打造  # 传统汽修店如何营销推广  # 多模  # 模型  # 英文  # 丰田  # 尼亚  # 首个  # 中国科学院  # 多图  # 网易  # qwen  # 通义千问  # 开源 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 游族AI创新院揭牌成立 推进AI赋能游戏业务  创新科学家成功研发FAST激光靶标维护机器人  谷歌在人工智能领域没有“护城河”?  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛  世界周刊丨AI“棱镜”?  图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了  中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  让AI助手带您轻松愉快地享受写作之旅  月薪6万,哪些AI岗位在抢人?  人工智能赋能广西自然资源领域监测监管  如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略  【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚  全球首款AI裸眼3D平板 国产的售价破万  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代  深剖Apple Vision Pro中暗藏的“AI”  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  AI进军债券交易,BondGPT来了!  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格  日新月异,脑机接口技术都有哪些新应用?  重塑未来生活的五项技术趋势  小艺主导智慧交互升级,借助AI大模型增强能力  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  特斯拉机器人面世 未来将大幅提振磁材需求,引领人工智能时代  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  懒人必备的家居清洁好物,石头自清洁扫拖机器人G20  灯塔AI大模型票房预测上线:开源算法不断提升精准度  Nature封面:量子计算机离实际应用还有两年  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理  自然语言生成在智能家居设备中的应用  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  2025智源大会AI安全话题备受关注,《人机对齐》新书首发 

 2023-09-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.