字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果


字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

在这个过程中,模态的对齐是通过文本 token 隐式实现的,如何做好这一步的对齐非常关键。

针对这一问题,武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法(CAL),从文本中筛选出与图像高度相关的 token,并加大其损失函数权重,从而实现更精准的多模态对齐。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节豆包、武大提出 cal:通过视觉相关的 token 增强多模态对齐效果

  • 论文链接:https://arxiv.org/pdf/2405.17871
  • 代码链接:https://github.com/foundation-multimodal-models/CAL

CAL 有以下几个亮点:

  • 可以直接嵌套到训练过程,无需额外预训练阶段。
  • 在 OCR 和 Caption benchmarks 上获得了明显的提升,从可视化中可以发现 CAL 使得图片模态对齐效果更好。
  • CAL 使得训练过程对噪声数据抵抗能力更强。

研究动机

目前视觉语言模型依赖于图片模态的对齐,如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐,但是每个文本 token 对图像对齐的贡献是不一致的,对这些文本 token 进行区分是非常有必要的。

CAL 提出,在现有的视觉语言模型(VLM)训练数据中,文本 token 可以被分为三类:

  • 与图片高度相关的文本:如实体(例如人、动物、物体)、数量、颜色、文字等。这些 token 与图像信息直接对应,对多模态对齐至关重要。
  • 与图片低相关度的文本:如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
  • 与图片内容相悖的文本:这些 token 与图像信息不一致,甚至可能提供误导信息,对多模态对齐过程产生负面影响。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

                                图一:绿色标记为与图片高度相关 token,红色为内容相悖,无色为中性 token

在训练过程中,后两类 token 整体而言实际上占据了较大比例,但由于它们并不强依赖于图片,对图片的模态对齐作用不大。因此,为了实现更好的对齐,需要加大第一类文本 token,即与图片高度相关部分 token 的权重。如何找出这一部分 token 成为了解决这个问题的关键所在。

方法

找出与图片高度相关 token 这个问题可以通过 condition contrastive 的方式来解决。

  •  对于训练数据中的每个图文对,在没有图片输入的情况下,每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。
  • 如果在前面添加图片输入,相当于提供额外的上下文信息,这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。

具体来说,在训练过程中,CAL 将图文序列和单独的文本序列分别输入到大语言模型(LLM)中,得到每个文本 token 的 logit。通过计算这两种情况下的 logit 差值,可以衡量图片对每个 token 的影响程度。logit 差值越大,说明图片对该 token 的影响越大,因此该 token 与图像越相关。下图展示了文本 token 的 logit diff 和 CAL 方法的流程图。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                         图二:左图是对两种情形下 token logit diff 的可视化,右图是 CAL 方法流程的可视化

实验

CAL 在 LLaVA 和 MGM 两个主流模型上进行了实验验证,在不同规模的模型下均实现了性能提升。

包含以下四个部分的验证:

(1)使用 CAL 的模型在各项基准测试指标上表现更佳。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞
(2) 通过按比例随机交换两个图文对中的文本来制造一批噪声数据(图文错配),并用于模型训练,CAL 使得训练过程具有更强的数据抗噪性能。字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              图三:在不同强度训练噪声情况下,CAL 与基线的性能表现

(3)对 QA case 中的答案部分计算其与图片 token 的注意力分数分布,并将其绘制在原图上,CAL 训练的模型拥有更清晰的注意力分布图。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

                             图四:基线与 CAL 的 attention map 可视化,每对中的右边为 CAL

(4)将每个图片 token 映射为它最相似 LLM 词表中的文本 token,将其绘制到原图上,CAL 训练的模型映射内容更接近图片内容。字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              图五:将 image token 映射为最相似词表 token,并对应到原图上

团队介绍:

字节跳动豆包大模型团队成立于 2025 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在 AI 领域拥有长期愿景与决心,研究方向涵盖 NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等 50 + 业务,并通过火山引擎开放给企业客户。目前,豆包 APP 已成为中国市场用户量最大的 AIGC 应用。欢迎加入字节跳动豆包大模型团队。

以上就是字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果的详细内容,更多请关注其它相关文章!


# 会议纪要  # 北京建设网站哪里好  # 蛇口价格低的网站建设  # 建设厅网站男人分手  # 快速的网站排名优化  # 营销人员的推广工具  # 关键词排名seo优化什么意思  # seo如何快速排名首页  # 昆明学习网站建设  # 武汉抖音seo公司  # 亭湖区seo优化性价比  # 越大  # 可以通过  # 字节跳动  # 什么时候  # 图上  # 模态  # 过程中  # 这一  # 情况下  # 多模  # type  # git  # 豆包大模型  # 工程 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  小米9号员工李明宣布创业:打造首款安卓桌面机器人  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  人工智能驱动艺术,打开达利的超现实想象  纪录片 《寻找人工智能》全集1080P超清  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  国产工业机器人领域“暗潮涌动”,即将迎来新一轮复苏  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  常见的五个人工智能误解  商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  WHEE安装教程  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  马斯克发推讽刺人工智能:机器学习的本质就是统计  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  上天下海登极,青岛与昇腾AI握手一起探索星辰大海  建立元宇宙产业联盟:移动、咪咕、华为、小米等加入  成都大运会闭幕式引入人形机器人展示表演  华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能  稿见AI助手:提升写作效率与质量的必备工具  AI智能室内效果图设计软件效果,确实惊到我了!  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  写出优质文章的妙招:利用"稿见AI助手"的实用指南  「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT  人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友  如何用Transformer BEV克服自动驾驶的极端情况?  陈根教授:离人形机器人时代还有10年吗?  微盟宣布联合腾讯云共建行业大模型:加快激活AI大模型智能应用  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  无人机巡检方案是什么,该如何选择适合的巡检方案  美图公司吴欣鸿:AI技术重构影像产业  乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联  AIGC浪潮下,联想集团再加码计算与人工智能  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  三星加速AR眼镜进程,预计明年上半年亮相  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  华为将于 7 月发布面向 AI 大模型的新款存储产品 

 2024-06-18

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.