本文介绍飞桨框架复现Real-Time-High-Resolution-Background-Matting论文的项目,含相关链接与依赖。论文网络分base和refine模块,复现采用多阶段训练,用多个数据集,添加laplacian_loss,还说明训练、验证及预测过程。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人工智能创新应用大赛——飞桨开源框架前沿模型复现专题赛,使用Paddle复现Real-Time-High-Resolution-Background-Matting论文。
github: https://github.com/zackzhao1/BackgroundMattingV2-paddle
aistudio: https://aistudio.baidu.com/aistudio/projectdetail/2467759
依赖环境: paddlepaddle-gpu2.1.2 python3.7
该方法中将整个pipeline划分为两个部分:base和refine部分,前一个部分在缩小分辨率的输入下生成粗略的结果输出,其主要用于提供大体的区域位置定位(coarse predcition)。后一个网络在该基础上通过path selection选取固定数量的path(这些区域主要趋向于选择头发/手等难分区域)进行refine,之后将path更新之后的结果填充回原来的结果,从而得到其在高分辨率下的matting结果。
图1:BGMv2的网络结构,其中蓝色的是base网络,绿色的是refine网络
BGMv2的网络分成两个模块: Gbase 和 Grefine 。给定一张输入图像 I 和空屏图像 B ,首先将其降采样 c 倍,得到 Ic 和 Bc 。 Gbase 取 Ic 和 Bc 作为输入,输出同样是降采样尺寸的前景概率 ac ,前景残差 FcR ,Error Map Ec 以及隐层节点特征 Hc 。然后 Grefine 根据 Ec 中值较大的像素点取 Hc ,I 以及 B 中对应的patch(难样本)来优化 FR 和 a ,整个过程如图1所示。
BGMv2借鉴了deeplab v3的网络结构,包含骨干网络,空洞空间金字塔池化和解码器三部分组成:
骨干网络:可以采用主流的卷积网络作为,作者开源的模型包括ResNet-50,ResNet-101以及MobileNetV2,用户可以根据速度和精度的不同需求选择不同的模型;空洞空间金字塔池化:(Atrous Spatial Pyramid Pooling,ASPP)是由DeeplabV3提出并在实例分割领域得到广泛应用的结构,人像抠图和实例分割本质上式非常接近的,因此也可以通过ASPP来提升模型准确率;解码器:解码器是由一些列的双线性插值上采样和跳跃连接组成,每个卷几块由 3∗3 卷积,BN以及ReLU激活函数组成。
如前面介绍的, Gbase 的输入是 Ic 和 Bc ,输出是 ac , FcR , Ec 以及 Hc 。其中Error Map Ec 的Ground Truth是 E∗ ,Error Map是一个人像轮廓的一个图。通过对Error Map的优化,可以使得BGMv2有更好的边缘检测效果。
Grefine 的输入是在根据 Ec 提取的 k 个补丁块(patches)上进行进行精校, k 可以提前指定选择top- k 个或是根据阈值卡若干个。用户也可以根据速度和精度的trade-off自行设置 k 或者阈值的具体值。对于缩放到原图 1/c 的 Ec ,我们首先将其上采样到原图的 1/4 ,那么 E4 中的一个点便相当于原图上一个 4∗4 的补丁块,那么相当于我们要优化的像素点的个数总共有 16k 个。
Grefine 的网络分成两个阶段:在1/2的分辨率和原尺寸的分辨率上进行精校。

Stage 1:首先将 Gbase 的输出上采样到原图的 1/2 ;然后再根据 E4 选择出的补丁块,从其周围在其中提取 8∗8 的补丁块;再依次经过两组 3∗3 的有效卷积,BN,ReLU将Feature Map的尺寸依次降为 6∗6 和 4∗4 。
简小派
简小派是一款AI原生求职工具,通过简历优化、岗位匹配、项目生成、模拟面试与智能投递,全链路提升求职成功率,帮助普通人更快拿到更好的 offer。
123
查看详情
Stage2:再将Stage 1得到的 4∗4 的Feature Map上采样到 8∗8 ,再依次经过两组 3∗3 的有效卷积,BN,ReLU将Feature Map的最终尺寸降为 4∗4 。而这个尺寸的Feature Map对应的ground truth就是我们上面根据 E4 得到的补丁块。最后我们将降采样的 ac 和 FcR 上采样到原图大小,再将Refine优化过后的补丁块替换到原图中便得到了最终的结果。
1.在复现过程中我们参考论文中的方法,做了多阶段的训练,并做了修改:
stage1:使用VideoMatte240K数据集做预训练,提升模型鲁棒性。注:由于预训练耗时较长,提供了训练好得模型,方便在自己的数据上微调,模型为stage1.pdparams。
stage2:使用Distinctions646数据集做微调,提升模型细节表现。注:此时模型最好精度为SAD: 7.58,MSE: 9.49,模型为stage2.pdparams。
stage3:使用个人数据集微调。注:本次比赛提交的是stage2模型,因为训练所用数据集都为公开数据集,方便复现。 原作者在论文中也使用了个人数据集微调,但没有公开。因此我增加了自己数据进行训练,没有条件的同学可以利用原工程生成pha作为训练数据。 模型最好精度为SAD: 7.61,MSE: 9.47,模型为stage3.pdparams。
2.添加了原作者新论文中用到的laplacian_loss,可以提高收敛速度。
3.模型api对照表 https://blog.csdn.net/qq_32097577/article/details/112383360?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.vipsorttest&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.vipsorttest

模型下载 链接:https://pan.baidu.com/s/1WfpzLcjaDJPXYSrzPWvsyQ 提取码:nsfy
注:由于预训练耗时较长,提供了训练好得模型,方便在自己的数据上微调,模型为stage1.pdparams。
注:此时模型最好精度为SAD: 7.58,MSE: 9.49,模型为stage2.pdparams。
注:本次比赛提交的是stage2模型,因为训练所用数据集都为公开数据集,方便复现。 原作者在论文中也使用了个人数据集微调,但没有公开。因此我增加了自己数据进行训练,没有条件的同学可以利用原工程生成pha作为训练数据。 模型最好精度为SAD: 7.61,MSE: 9.47,模型为stage3.pdparams。
In [1]# [VideoMatte240K & PhotoMatte85 数据集](https://grail.cs.washington.edu/projects/background-matting-v2/#/datasets)# [Distinctions646_person 数据集](https://github.com/cs-chan/Total-Text-Dataset)# 数据集需要申请,请自行下载! ./run.sh
# 解压测试集!unzip ./data/data111962/PhotoMatte85_eval.zip -d ./data/In [4]
!python eval.py
W1013 17:35:31.830500 406 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1 W1013 17:35:31.835165 406 device_context.cc:422] device: 0, cuDNN Version: 7.6. 0%| | 0/85 [00:00<?, ?it/s]/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/tensor/creation.py:125: DeprecationWarning: `np.object` is a deprecated alias for the builtin `object`. To silence this warning, use `object` by itself. Doing this will not modify any beh*ior and is safe. Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations if data.dtype == np.object: /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dygraph/math_op_patch.py:239: UserWarning: The dtype of left and right variables are not the same, left dtype is paddle.float32, but right dtype is paddle.bool, the right dtype will convert to paddle.float32 format(lhs_dtype, rhs_dtype, lhs_dtype)) /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dygraph/math_op_patch.py:239: UserWarning: The dtype of left and right variables are not the same, left dtype is paddle.float32, but right dtype is paddle.float64, the right dtype will convert to paddle.float32 format(lhs_dtype, rhs_dtype, lhs_dtype)) 100%|███████████████████████████████████████████| 85/85 [00:28<00:00, 2.96it/s] paddle output: SAD: 8.519970015918508, MSE: 9.885075489212484
!python predict.py
W1013 18:00:01.562386 1535 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1 W1013 18:00:01.5670601535 device_context.cc:422] device: 0, cuDNN Version: 7.6. s*e results:./image/01_pred.jpg
以上就是抠像任务:基于飞桨复现BackgroundMattingV2模型的详细内容,更多请关注其它相关文章!
# 中也
# 南京seo专业优化
# 滁州seo公司选择17火星
# 酒的网络营销推广方案
# 山西专业网站建设公司
# 自媒体网络营销推广方式
# 浙江seo营销打造企业
# 江西seo入门方法
# 青海小红书高质量推广网站
# 湖北seo引擎优化方法
# seo优化哪个内容好
# 都为
# 可以利用
# 可以根据
# python
# 是由
# 自己的
# 一言
# 抠像
# 中文网
# 的是
# type
# udio
# deepl
# red
# ai
# qq
# git
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
RoboNeo安装教程
深企派遣无人机救援队赴京津冀开展防汛救灾任务
成功孵化首个大型模型解决方案的重庆人工智能创新中心
为了避免人工智能可能带来的灾难,我们要向核安全学习
实现MySQL数据锁定策略:解决并发冲突的J*a解决方案
稿见AI助手:提升写作效率与质量的必备工具
亚马逊CEO:人工智能将成为公司未来战略的重中之重
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
《自然》杂志拒绝刊登人工智能生成的图片和视频
杭州举办第19届亚运会,主题为「亚运元宇宙」的发布仪式举行
大型无人机FH-98国内首次夜航转场成功
人工智能如何用于家庭安全
导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
美图设计室2.0什么时候上线
梦想实现!硬核科幻大片VR智能头盔即将问世
30+大模型齐聚,大模型成世界人工智能大会“顶流”
人工智能行业急缺人 AI人才年薪能达近42万元
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器
走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!
“三夏”农忙保障用电,无人机高空巡视高压线
音乐制作元工具AudioCraft发布开源AI工具
科技赋能司法执行 阿里资产免费为全国法院升级VR新服务
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
AI在教育中的角色:AI如何改变我们的学习方式
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码
优地网络助力新媒体拥抱人工智能时代
掌阅科技对话式AI应用“阅爱聊”开启内测
再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
“黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”
ChatGPT 可以设计机器人吗?
通用医疗人工智能如何革新医疗行业?
人形机器人概念集体爆发,能买吗?
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”
月薪6万,哪些AI岗位在抢人?
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
机器人 展才能
一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱
郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会
央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天
从谷歌到亚马逊,科技巨头们的AI痴迷
周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由
彬州市第三届青少年机器人创新大赛成功举办
利好来了,AI再起一波?
OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观
2025-07-18
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。