字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

在这个过程中，模态的对齐是通过文本 token 隐式实现的，如何做好这一步的对齐非常关键。

针对这一问题，武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法（CAL），从文本中筛选出与图像高度相关的 token，并加大其损失函数权重，从而实现更精准的多模态对齐。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节豆包、武大提出 cal：通过视觉相关的 token 增强多模态对齐效果

论文链接：https://arxiv.org/pdf/2405.17871
代码链接：https://github.com/foundation-multimodal-models/CAL

CAL 有以下几个亮点：

可以直接嵌套到训练过程，无需额外预训练阶段。
在 OCR 和 Caption benchmarks 上获得了明显的提升，从可视化中可以发现 CAL 使得图片模态对齐效果更好。
CAL 使得训练过程对噪声数据抵抗能力更强。

研究动机

目前视觉语言模型依赖于图片模态的对齐，如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐，但是每个文本 token 对图像对齐的贡献是不一致的，对这些文本 token 进行区分是非常有必要的。

CAL 提出，在现有的视觉语言模型（VLM）训练数据中，文本 token 可以被分为三类：

与图片高度相关的文本：如实体（例如人、动物、物体）、数量、颜色、文字等。这些 token 与图像信息直接对应，对多模态对齐至关重要。
与图片低相关度的文本：如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
与图片内容相悖的文本：这些 token 与图像信息不一致，甚至可能提供误导信息，对多模态对齐过程产生负面影响。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图一：绿色标记为与图片高度相关 token，红色为内容相悖，无色为中性 token}

在训练过程中，后两类 token 整体而言实际上占据了较大比例，但由于它们并不强依赖于图片，对图片的模态对齐作用不大。因此，为了实现更好的对齐，需要加大第一类文本 token，即与图片高度相关部分 token 的权重。如何找出这一部分 token 成为了解决这个问题的关键所在。

方法

找出与图片高度相关 token 这个问题可以通过 condition contrastive 的方式来解决。

对于训练数据中的每个图文对，在没有图片输入的情况下，每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。
如果在前面添加图片输入，相当于提供额外的上下文信息，这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。

具体来说，在训练过程中，CAL 将图文序列和单独的文本序列分别输入到大语言模型（LLM）中，得到每个文本 token 的 logit。通过计算这两种情况下的 logit 差值，可以衡量图片对每个 token 的影响程度。logit 差值越大，说明图片对该 token 的影响越大，因此该 token 与图像越相关。下图展示了文本 token 的 logit diff 和 CAL 方法的流程图。

^{图二：左图是对两种情形下 token logit diff 的可视化，右图是 CAL 方法流程的可视化}

实验

CAL 在 LLaVA 和 MGM 两个主流模型上进行了实验验证，在不同规模的模型下均实现了性能提升。

包含以下四个部分的验证：

（1）使用 CAL 的模型在各项基准测试指标上表现更佳。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

码上飞

码上飞（CodeFlying）是一款AI自动化开发平台，通过自然语言描述即可自动生成完整应用程序。

430 查看详情码上飞

（2）通过按比例随机交换两个图文对中的文本来制造一批噪声数据（图文错配），并用于模型训练，CAL 使得训练过程具有更强的数据抗噪性能。字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图三：在不同强度训练噪声情况下，CAL 与基线的性能表现}

（3）对 QA case 中的答案部分计算其与图片 token 的注意力分数分布，并将其绘制在原图上，CAL 训练的模型拥有更清晰的注意力分布图。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图四：基线与 CAL 的 attention map 可视化，每对中的右边为 CAL}

（4）将每个图片 token 映射为它最相似 LLM 词表中的文本 token，将其绘制到原图上，CAL 训练的模型映射内容更接近图片内容。字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图五：将 image token 映射为最相似词表 token，并对应到原图上}

团队介绍：

字节跳动豆包大模型团队成立于 2025 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。

豆包大模型团队在 AI 领域拥有长期愿景与决心，研究方向涵盖 NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等 50 + 业务，并通过火山引擎开放给企业客户。目前，豆包 APP 已成为中国市场用户量最大的 AIGC 应用。欢迎加入字节跳动豆包大模型团队。

以上就是字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果的详细内容，更多请关注其它相关文章！

# 会议纪要 # 北京建设网站哪里好 # 蛇口价格低的网站建设 # 建设厅网站男人分手 # 快速的网站排名优化 # 营销人员的推广工具 # 关键词排名seo优化什么意思 # seo如何快速排名首页 # 昆明学习网站建设 # 武汉抖音seo公司 # 亭湖区seo优化性价比 # 越大 # 可以通过 # 字节跳动 # 什么时候 # 图上 # 模态 # 过程中 # 这一 # 情况下 # 多模 # type # git # 豆包大模型 # 工程

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-06-18

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。