目前,GPT-4 Vision在语言理解和视觉处理方面显示出了令人惊叹的能力。
然而,对于那些希望在不影响性能的情况下寻求成本效益替代方案的人来说,开源方案是一个具有无限潜力的选择。
Youssef Hosni是一位国外开发者,他为我们提供了三种可访问性绝对保障的开源替代方案来取代GPT-4V。
三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA在视觉处理领域拥有巨大潜力,值得我们深入了解。这些模型的研究和开发,可以为我们提供更高效、精准的视觉处理解决方案。通过运用这些模型,我们可以提升图像识别、目标检测和图像生成等任务的准确性和效率,为视觉处理领域的研究和应用带
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
LLaVA是一个多模态大模型,由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员合作开发。最初的版本发布于4月份。
它将视觉编码器和Vicuna(用于通用视觉和语言理解)结合在一起,展现了非常出色的聊天能力。
图片
10月份,经过升级的LLaVA-1.5在性能上已经接近多模态GPT-4,并在Science QA数据集上取得了最先进的结果(SOTA)。
图片
13B模型的训练,只需要8个A100就可以在1天内完成。
图片
可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。
LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。
而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。
图片
在视觉推理上,它的表现十分抢眼。
图片
图片
提问:「如果有事实性错误,请指出来。如果没有,请告诉我,沙漠中正在发生什么?」
LLaVA还无法完全回答正确。
升级后的LLaVA-1.5给出了完美答案:「图中根本没有沙漠,有的是棕榈树海滩、城市天际线和一大片水域。」
图片
另外,LLaVA-1.5还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。
图片
给LLaVA-1.5一张满是水果蔬菜的图片,它也能像GPT-4V一样,把图片转化JSON。
图片
下面这幅图是什么意思?
图片
这是一张根据诺兰《盗梦空间》绘制的简化草图,为了提高难度,角色名字被改成了假名。
LLaVA-1.5惊艳答出:「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次,每一层次用一条线表示。图写在一张纸上,纸放在一个台面上。」
图片
一张食物图直接发给LLaVA-1.5,它火速就给你生成一份菜谱。
图片
而且,LLaVA-1.5不用「越狱」就可以识别出验证码。
图片
它还能检测出,图中是哪种硬币。
图片
尤为令人印象深刻的是,LLaVA-1.5还能告诉你图中的汪星人是什么品种。
图片
有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片,并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——
这是一张经过处理或PS的照片,照片中一名男子穿着夹克,站在海滩上。该男子敞开外套,阳光照在他身上。这张图片的问题在于,它并非真实的海滩场景。该男子实际上并没有站在沙滩上,阳光也没有照在他身上。这张图是p出来的,营造出了一种海滩场景的假象,但它并没有真实地再现这个场景。
图片
OCR识别,LLaVA的性能也很强大。
图片
图片
图片
CogAgent是在CogVLM基础上改进的开源视觉语言模型,来自清华的研究者。
CogAgent-18B有110亿个视觉参数,和70亿个语言参数。
图片
论文地址:https://arxiv.org/pdf/2312.08914.pdf
在9个经典的跨模态基准(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B实现了最先进的通用性能。
在AITW和Mind2Web等图形用户界面操作数据集上,它大大超过了现有模型。
除了CogVLM已有的所有功能(可视化多轮对话、可视化接地)外,CogAgent.NET还提供了更多的功能:
Scenario
一个AI生成游戏资产的工具
56
查看详情
1.支持更高分辨率的视觉输入和对话答题。支持1120x1120的超高分辨率图像输入。
2.具备可视化代理的能力,能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。
3.增强了与图形用户界面相关的问题解答功能,使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。
4.通过改进预培训和微调,增强了OCR相关任务的能力。
利用CogAgent,它可以帮我们一步步找到CVPR23的最佳论文。
图片
可以帮我们把手机显示调成明亮模式。
图片
这条推文有多少转评赞,为什么如此受欢迎,CogAgent都能分析出来,甚至连回复一个“Brilliant”,它都能操作。
图片
从弗罗里达大学到好莱坞,怎样选择最快的路线?如果从早上8点出发,该如何评估需要花多长时间?CogAgent都可以回答。
图片
可以设定特定的主题,让CogAgent往指定的邮箱里发邮件。
图片
想听一首
图片
CogAgent能精准地描述出《原神》中的画面,还能引导你如何走到传送点。
图片
BakLLaVA1是使用LLaVA 1.5架构增强的Mist
ral 7B基础模型。
在第⼀个版本中,Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。
在他们的repo中,就可以运行BakLLaVA-1了。页面还在不断更新中,以方便微调和推理。(https://github.com/SkunkworksAI/BakLLaVA)
BakLLaVA-1是完全开源的,但在某些数据上进行了训练,其中包括LLaVA的语料库,因此不允许商用。
BakLLaVA 2采用了更大的数据集和更新的架构,超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制,可以商用。
参考资料:
https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5
以上就是清华浙大主导开源视觉模型爆炸, GPT-4V与LLaVA、CogAgent等平台带来革命性变革的详细内容,更多请关注其它相关文章!
# 多模
# 市场推广营销制度内容
# 怎么在网站平台上推广
# 雅安网站建设价格表
# 网站整合营销推广渠道
# 吴忠seo网络推广优化
# 搬家网站推广文章范文
# 黄石推广获客网站有哪些
# 搭建seo赚钱
# 莱芜专业网站建设公司
# 湖南seo优化的好方法
# 在他
# 开源
# 是一个
# 还能
# 出了
# 图中
# 这是
# 大爆发
# 清华
# llama
# llava
# gpt-4v
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
美图第二届影像节发布七款AI影像创作工具
当孔子遇见AI|尼山的“数字”
腾讯机器狗进化:通过深度学习掌握自主决策能力
马斯克称人类是半机器人,记忆外包给了电脑
马斯克回应人工智能拯救世界:人类已处于“半机器人”状态
特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会
前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!
QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手
看了天美对AI的布局,我感觉它想得是真明白
精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*
揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
实现MySQL数据锁定策略:解决并发冲突的J*a解决方案
映宇宙数字人“映映”亮相ChinaJoy,展示AI黑科技实现用户互动
从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
调查显示:实际上没有那么多人在用 ChatGPT
警惕!AI或致虚假信息泛滥
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
十个AI算法常用库J*a版
如何用户外电源给无人机实现持久续航
即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%
斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等
陈根:AI工具为游戏软件实时3D内容助力
25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
优化J*a与MySQL合作:分享批处理操作的技巧
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
Meta发布音频AI模型,仅需2秒片段模拟真人语音
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
英伟达CEO宣称生成式AI已迎来“划时代时刻”
国产医疗企业的人工智能
这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性
Moka AI产品后观察:HR SaaS迈进AGI时代
学界业界大咖探讨:AI对数字艺术创新的推动力
小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
三星加速AR眼镜进程,预计明年上半年亮相
西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!
开创全新虚拟现实体验的Pimax Crystal VR头显
研究预测HPC支持的人工智能增长迅速
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
无人机在电力巡检中的应用:全面解析高效巡检流程
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
2024-01-04
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。