清华浙大主导开源视觉模型爆炸， GPT-4V与LLaVA、CogAgent等平台带来革命性变革

目前，GPT-4 Vision在语言理解和视觉处理方面显示出了令人惊叹的能力。

然而，对于那些希望在不影响性能的情况下寻求成本效益替代方案的人来说，开源方案是一个具有无限潜力的选择。

Youssef Hosni是一位国外开发者，他为我们提供了三种可访问性绝对保障的开源替代方案来取代GPT-4V。

三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA在视觉处理领域拥有巨大潜力，值得我们深入了解。这些模型的研究和开发，可以为我们提供更高效、精准的视觉处理解决方案。通过运用这些模型，我们可以提升图像识别、目标检测和图像生成等任务的准确性和效率，为视觉处理领域的研究和应用带

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

LLaVa

LLaVA是一个多模态大模型，由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员合作开发。最初的版本发布于4月份。

它将视觉编码器和Vicuna（用于通用视觉和语言理解）结合在一起，展现了非常出色的聊天能力。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

10月份，经过升级的LLaVA-1.5在性能上已经接近多模态GPT-4，并在Science QA数据集上取得了最先进的结果（SOTA）。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

13B模型的训练，只需要8个A100就可以在1天内完成。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

在视觉推理上，它的表现十分抢眼。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

提问：「如果有事实性错误，请指出来。如果没有，请告诉我，沙漠中正在发生什么？」

LLaVA还无法完全回答正确。

升级后的LLaVA-1.5给出了完美答案：「图中根本没有沙漠，有的是棕榈树海滩、城市天际线和一大片水域。」

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

另外，LLaVA-1.5还可以从图中提取信息，按照要求的格式进行回答，比如以JSON格式输出。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

给LLaVA-1.5一张满是水果蔬菜的图片，它也能像GPT-4V一样，把图片转化JSON。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

下面这幅图是什么意思？

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

这是一张根据诺兰《盗梦空间》绘制的简化草图，为了提高难度，角色名字被改成了假名。

LLaVA-1.5惊艳答出：「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次，每一层次用一条线表示。图写在一张纸上，纸放在一个台面上。」

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

一张食物图直接发给LLaVA-1.5，它火速就给你生成一份菜谱。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

而且，LLaVA-1.5不用「越狱」就可以识别出验证码。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

它还能检测出，图中是哪种硬币。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

尤为令人印象深刻的是，LLaVA-1.5还能告诉你图中的汪星人是什么品种。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片，并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——

这是一张经过处理或PS的照片，照片中一名男子穿着夹克，站在海滩上。该男子敞开外套，阳光照在他身上。这张图片的问题在于，它并非真实的海滩场景。该男子实际上并没有站在沙滩上，阳光也没有照在他身上。这张图是p出来的，营造出了一种海滩场景的假象，但它并没有真实地再现这个场景。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

OCR识别，LLaVA的性能也很强大。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

CogAgent

CogAgent是在CogVLM基础上改进的开源视觉语言模型，来自清华的研究者。

CogAgent-18B有110亿个视觉参数，和70亿个语言参数。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

论文地址：https://arxiv.org/pdf/2312.08914.pdf

在9个经典的跨模态基准（包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE）上，CogAgent-18B实现了最先进的通用性能。

在AITW和Mind2Web等图形用户界面操作数据集上，它大大超过了现有模型。

除了CogVLM已有的所有功能（可视化多轮对话、可视化接地）外，CogAgent.NET还提供了更多的功能：

Scenario

一个AI生成游戏资产的工具

56 查看详情 Scenario

1.支持更高分辨率的视觉输入和对话答题。支持1120x1120的超高分辨率图像输入。

2.具备可视化代理的能力，能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。

3.增强了与图形用户界面相关的问题解答功能，使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。

4.通过改进预培训和微调，增强了OCR相关任务的能力。

图形用户界面代理（GUI Agent）

利用CogAgent，它可以帮我们一步步找到CVPR23的最佳论文。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

可以帮我们把手机显示调成明亮模式。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

这条推文有多少转评赞，为什么如此受欢迎，CogAgent都能分析出来，甚至连回复一个“Brilliant”，它都能操作。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

从弗罗里达大学到好莱坞，怎样选择最快的路线？如果从早上8点出发，该如何评估需要花多长时间？CogAgent都可以回答。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

可以设定特定的主题，让CogAgent往指定的邮箱里发邮件。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

想听一首，CogAgent可以一步步列出步骤。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

CogAgent能精准地描述出《原神》中的画面，还能引导你如何走到传送点。

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发图片

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架构增强的Mistral 7B基础模型。

在第⼀个版本中，Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。

在他们的repo中，就可以运行BakLLaVA-1了。页面还在不断更新中，以方便微调和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全开源的，但在某些数据上进行了训练，其中包括LLaVA的语料库，因此不允许商用。

BakLLaVA 2采用了更大的数据集和更新的架构，超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制，可以商用。

参考资料：

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

以上就是清华浙大主导开源视觉模型爆炸， GPT-4V与LLaVA、CogAgent等平台带来革命性变革的详细内容，更多请关注其它相关文章！

# 多模 # 市场推广营销制度内容 # 怎么在网站平台上推广 # 雅安网站建设价格表 # 网站整合营销推广渠道 # 吴忠seo网络推广优化 # 搬家网站推广文章范文 # 黄石推广获客网站有哪些 # 搭建seo赚钱 # 莱芜专业网站建设公司 # 湖南seo优化的好方法 # 在他 # 开源 # 是一个 # 还能 # 出了 # 图中 # 这是 # 大爆发 # 清华 # llama # llava # gpt-4v

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-01-04

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。