清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳


2025 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2025 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2025 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型,中文能力登顶权威榜单 ZeroCLUE,英文能力打平 LLaMA。

屡屡作出破壁性成就,CPM 系列大模型一直在引领国产大模型攀登高峰,最近发布的 VisCPM 是又一次证明!VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源在 OpenBMB 的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,评测显示 VisCPM 在中文多模态开源模型中达到最佳水平。

VisCPM 基于百亿参数基座模型 CPM-Bee 训练,融合视觉编码器(Q-Former 和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于 CPM-Bee 底座优秀的双语能力,VisCPM 可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM简易架构图

我们来详细看看 VisCPM-Chat 和 VisCPM-Paint 到底牛在哪里。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳图片

viscpm 链接:https://github.com/openbmb/viscpm

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

VisCPM-Chat 支持面向图像进行中英双语多模态对话。该模型使用 Q-Former 作为视觉编码器,使用 CPM-Bee(10B)作为语言交互基底模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段。

团队使用约 100M 高质量英文图文对数据 对 VisCPM-Chat 进行了预训练,数据包括 CC3M、CC12M、COCO、Visual Genome、Laion 等。在预训练阶段,语言模型参数保持固定,仅更新 Q-Former 部分参数,以支持大规模视觉 - 语言表示的高效对齐。

之后团队对 VisCPM-Chat 进行了指令精调,采用 LLaVA-150K 英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,他们更新了全部模型参数,以提升指令精调数据的利用效率。

有趣的是,团队发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。这表明模型的多语言多模态能力已经得到良好的泛化。在指令精调阶段进一步加入少量中文翻译数据,就可以将模型回复语言和用户问题语言对齐。

团队在 LLaVA 英文测试集和翻译的中文测试集对模型进行了评测,该评测基准考察模型在开放域对话、图像细节描述、复杂推理方面的表现,并使用 GPT-4 进行打分。可以观察到,VisCPM-Chat 在中文多模态能力方面取得了最佳的平均性能,在通用域对话和复杂推理上表现出色,同时也表现出了不错的英文多模态能力。

VisCPM-Chat 提供了两个模型版本,分别为 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文两种语言上的能力较为平衡,后者在中文能力上更加突出。两个模型在指令精调阶段使用的数据相同,VisCPM-Chat-zhplus 在预训练阶段额外加入了 20M 清洗后的原生中文图文对数据和 120M 翻译到中文的图文对数据。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳图片

下面是 VisCPM-Chat 的多模态对话能力展示,不仅能识别具体地区的地图,还能读懂涂鸦画和电影海报,甚至认识星巴克的 logo。而且,中英文双语都很溜!


清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

再来看 VisCPM-Paint ,它支持中英双语的文到图生成。该模型使用 CPM-Bee(10B)作为文本编码器,使用 UNet 作为图像解码器,并通过扩散模型训练目标融合语言和视觉模型。

在训练过程中,语言模型参数始终保持固定。使用 Stable Diffusion 2.1 的 UNet 参数初始化视觉解码器,并通过逐步解冻其中关键的桥接参数将其与语言模型融合:首先训练文本表示映射到视觉模型的线性层,然后进一步解冻 UNet 的交叉注意力层。该模型在 Laion 2B 英文图文对数据上进行了训练。

与 VisCPM-Paint 类似,得益于基座模型 CPM-Bee 的双语能力,VisCPM-Paint 可以仅通过英文图文对训练,泛化实现良好的中文文到图生成能力,达到中文开源模型的最佳效果。通过进一步加入 20M 清洗后的原生中文图文对数据,以及 120M 翻译到中文的图文对数据,模型的中文文到图生成能力获得进一步提升。同样,VisCPM-Paint 有 balance 和 zhplus 两个不同的版本。他们在标准图像生成测试集 MSCOCO 上采样了 3 万张图片,计算了常用评估图像生成指标 FID (Fréchet Inception Distance) 评估生成图片的质量。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM-Paint 模型中分别输入 “海上生明月,天涯共此时,唯美风格,抽象风格”“人闲桂花落,月静春山空” 两条 prompts,生成了以下两张图片:

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

(生成效果稳定性仍有提升空间)

相当惊艳,可以说精准把握了古诗词的意境,以后读不懂诗句就直接生成个图片来理解!如果应用在设计上,可以节省一大笔人力。不仅能 “作画”,用上 VisCPM-Chat,还能 “吟诗”:用图片反向检索诗句。比如能用李白的诗描绘黄河的景象并作解读,在面对中秋月夜时还能用苏轼的《水调歌头》借景抒情。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 不仅生成效果好,下载版本设计考虑周到,安装和使用也十分简易。 

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM提供不同中英文能力的版本

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 提供不同中英文能力的模型版本供大家下载选择,安装步骤简单,在使用中可以通过几行代码实现多模态对话,还在代码中默认开启了对输入文本和输出图片的安全检查。(具体教程详见 README)未来团队还会将 VisCPM 整合到 huggingface 代码框架中,并且会陆续完善安全模型、 支持快速网页部署、 支持模型量化功能、支持模型微调等功能,坐等更新!

值得一提的是,VisCPM 系列模型非常欢迎个人使用和研究用途。如需将模型用于商业用途,还可以联系 cpm@modelbest.cn 洽谈商业授权事宜。

传统模型专注处理单一模态数据,现实世界中的信息往往是多模态的,多模态大模型提升了人工智能系统的感知交互能力,为 AI 解决现实世界中复杂的感知和理解任务带来了新的机遇。不得不说,清华系大模型公司面壁智能研发能力强大,联合发布的多模态大模型 VisCPM 实力强大、表现惊艳,期待他们后续的成果发布!

以上就是清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳的详细内容,更多请关注其它相关文章!


# ai  # 扬州常规网站建设  # 媒体seo优化郑重承诺  # seo包括网站建设吗  # 南坪正规网站建设  # 青岛关键词排名平台  # 商丘网站建设选哪家  # 浙江网站建设公司服务  # 长沙企业seo优化外包  # 济宁网站建设网站优化  # 丰田  # 中国科学院  # 的是  # 进行了  # 基座  # 惊艳  # 英文  # 清华  # 开源  # 多模  # stable diffusion  # llama  # openbmb  # 模型  # 衢州网站关键词推广优化 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 配 3D 机器人头像,谷歌展示全新安卓 LOGO  AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?  灯塔AI大模型票房预测上线:开源算法不断提升精准度  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  标小智LOGO推出AI公司起名生成器“Name.GPT”  人工智能如何与智能家居集成  遵义市首次引入手术机器人,成功实施全膝关节置换术  一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了  联想举办2025创新开放日,展出260余项算力及AI产品技术  外科医生的智能助手,“机器人手术”得到补充商业医保覆盖  赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  贫穷让我预训练  抖音在Android平台获得VR|直播|软件著作权  掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标  实践J*a开发,构建高性能的MongoDB数据迁移工具  AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏  五个IntelliJ IDEA插件,高效编写代码  大模型新品出现井喷,AI产业迎来新时代  上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同  AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地  图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响  优傲机器人的人机协作技术 助力中小企发展  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  J*a与人工智能结合:构建智能云服务  城市在采用人工智能方面进展如何?  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  曝索尼在开发新头显设备:游戏中使用AR技术  微软向美国政府提供GPT大模型,如何保证安全性?  AI智能室内效果图设计软件效果,确实惊到我了!  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  探索人工智能在居家养老方面的应用  人工智能正在弥合认知和表达之间的鸿沟  比尔盖茨:AI确实存在风险,但可控  报告称 70% 程序员已使用各种 AI 工具编程  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  鸿蒙4即将支持大规模AI模型  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会  杀入生成式AI的亚马逊云科技,能否再次生成未来?  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  组建团队,字节跳动要造机器人?  2025年的网络分区:人工智能和自动化如何改变事物 

 2023-07-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.