首页 > 营销学院 > IT资讯

抠像任务：基于飞桨复现BackgroundMattingV2模型

本文介绍飞桨框架复现Real-Time-High-Resolution-Background-Matting论文的项目，含相关链接与依赖。论文网络分base和refine模块，复现采用多阶段训练，用多个数据集，添加laplacian_loss，还说明训练、验证及预测过程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

抠像任务：基于飞桨复现backgroundmattingv2模型 -

前言

人工智能创新应用大赛——飞桨开源框架前沿模型复现专题赛，使用Paddle复现Real-Time-High-Resolution-Background-Matting论文。

github： https://github.com/zackzhao1/BackgroundMattingV2-paddle

aistudio： https://aistudio.baidu.com/aistudio/projectdetail/2467759

依赖环境： paddlepaddle-gpu2.1.2 python3.7

论文简介

该方法中将整个pipeline划分为两个部分：base和refine部分，前一个部分在缩小分辨率的输入下生成粗略的结果输出，其主要用于提供大体的区域位置定位（coarse predcition）。后一个网络在该基础上通过path selection选取固定数量的path（这些区域主要趋向于选择头发/手等难分区域）进行refine，之后将path更新之后的结果填充回原来的结果，从而得到其在高分辨率下的matting结果。抠像任务：基于飞桨复现BackgroundMattingV2模型 - 图1：BGMv2的网络结构，其中蓝色的是base网络，绿色的是refine网络

论文细节

BGMv2的网络分成两个模块： $G_{b a s e}$ Gbase 和 $G_{r e f i n e}$ Grefine 。给定一张输入图像 $I$ I 和空屏图像 $B$ B ，首先将其降采样 $c$ c 倍，得到 $I_{c}$ Ic 和 $B_{c}$ Bc 。 $G_{b a s e}$ Gbase 取 $I_{c}$ Ic 和 $B_{c}$ Bc 作为输入，输出同样是降采样尺寸的前景概率 $a_{c}$ ac ，前景残差 $F_{c}^{R}$ FcR ，Error Map $E_{c}$ Ec 以及隐层节点特征 $H_{c}$ Hc 。然后 $G_{r e f i n e}$ Grefine 根据 $E_{c}$ Ec 中值较大的像素点取 $H_{c}$ Hc ， $I$ I 以及 $B$ B 中对应的patch（难样本）来优化 $F^{R}$ FR 和 $a$ a ，整个过程如图1所示。

base网络

BGMv2借鉴了deeplab v3的网络结构，包含骨干网络，空洞空间金字塔池化和解码器三部分组成：

骨干网络：可以采用主流的卷积网络作为，作者开源的模型包括ResNet-50，ResNet-101以及MobileNetV2，用户可以根据速度和精度的不同需求选择不同的模型；空洞空间金字塔池化：（Atrous Spatial Pyramid Pooling，ASPP）是由DeeplabV3提出并在实例分割领域得到广泛应用的结构，人像抠图和实例分割本质上式非常接近的，因此也可以通过ASPP来提升模型准确率；解码器：解码器是由一些列的双线性插值上采样和跳跃连接组成，每个卷几块由 $3 * 3$ 3∗3 卷积，BN以及ReLU激活函数组成。

如前面介绍的， $G_{b a s e}$ Gbase 的输入是 $I_{c}$ Ic 和 $B_{c}$ Bc ，输出是 $a_{c}$ ac ， $F_{c}^{R}$ FcR ， $E_{c}$ Ec 以及 $H_{c}$ Hc 。其中Error Map $E_{c}$ Ec 的Ground Truth是 $E *$ E∗ ，Error Map是一个人像轮廓的一个图。通过对Error Map的优化，可以使得BGMv2有更好的边缘检测效果。

Refine网络

$G_{r e f i n e}$ Grefine 的输入是在根据 $E_{c}$ Ec 提取的 k 个补丁块（patches）上进行进行精校， k 可以提前指定选择top- k 个或是根据阈值卡若干个。用户也可以根据速度和精度的trade-off自行设置 k 或者阈值的具体值。对于缩放到原图 $1 / c$ 1/c 的 $E_{c}$ Ec ，我们首先将其上采样到原图的 1/4 ，那么 $E_{4}$ E4 中的一个点便相当于原图上一个 $4 * 4$ 4∗4 的补丁块，那么相当于我们要优化的像素点的个数总共有 16k 个。

$G_{r e f i n e}$ Grefine 的网络分成两个阶段：在1/2的分辨率和原尺寸的分辨率上进行精校。

抠像任务：基于飞桨复现BackgroundMattingV2模型 -

Stage 1：首先将 $G_{b a s e}$ Gbase 的输出上采样到原图的 1/2 ；然后再根据 $E_{4}$ E4 选择出的补丁块，从其周围在其中提取 $8 * 8$ 8∗8 的补丁块；再依次经过两组 $3 * 3$ 3∗3 的有效卷积，BN，ReLU将Feature Map的尺寸依次降为 $6 * 6$ 6∗6 和 $4 * 4$ 4∗4 。

简小派

简小派是一款AI原生求职工具，通过简历优化、岗位匹配、项目生成、模拟面试与智能投递，全链路提升求职成功率，帮助普通人更快拿到更好的 offer。

123 查看详情简小派

Stage2：再将Stage 1得到的 $4 * 4$ 4∗4 的Feature Map上采样到 $8 * 8$ 8∗8 ，再依次经过两组 $3 * 3$ 3∗3 的有效卷积，BN，ReLU将Feature Map的最终尺寸降为 $4 * 4$ 4∗4 。而这个尺寸的Feature Map对应的ground truth就是我们上面根据 $E_{4}$ E4 得到的补丁块。最后我们将降采样的 $a_{c}$ ac 和 $F_{c}^{R}$ FcR 上采样到原图大小，再将Refine优化过后的补丁块替换到原图中便得到了最终的结果。

复现思路

1.在复现过程中我们参考论文中的方法，做了多阶段的训练，并做了修改：

stage1：使用VideoMatte240K数据集做预训练，提升模型鲁棒性。注：由于预训练耗时较长，提供了训练好得模型，方便在自己的数据上微调，模型为stage1.pdparams。

stage2：使用Distinctions646数据集做微调，提升模型细节表现。注：此时模型最好精度为SAD: 7.58，MSE: 9.49，模型为stage2.pdparams。

stage3：使用个人数据集微调。注：本次比赛提交的是stage2模型，因为训练所用数据集都为公开数据集，方便复现。原作者在论文中也使用了个人数据集微调，但没有公开。因此我增加了自己数据进行训练，没有条件的同学可以利用原工程生成pha作为训练数据。模型最好精度为SAD: 7.61，MSE: 9.47，模型为stage3.pdparams。

2.添加了原作者新论文中用到的laplacian_loss，可以提高收敛速度。

3.模型api对照表 https://blog.csdn.net/qq_32097577/article/details/112383360?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.vipsorttest&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.vipsorttest

复现

抠像任务：基于飞桨复现BackgroundMattingV2模型 -

模型下载链接：https://pan.baidu.com/s/1WfpzLcjaDJPXYSrzPWvsyQ 提取码：nsfy

训练

stage1：使用VideoMatte240K数据集做预训练，提升模型鲁棒性。

注：由于预训练耗时较长，提供了训练好得模型，方便在自己的数据上微调，模型为stage1.pdparams。

stage2：使用Distinctions646数据集做微调，提升模型细节表现。

注：此时模型最好精度为SAD: 7.58，MSE: 9.49，模型为stage2.pdparams。

**stage3：使用个人数据集微调。

注：本次比赛提交的是stage2模型，因为训练所用数据集都为公开数据集，方便复现。原作者在论文中也使用了个人数据集微调，但没有公开。因此我增加了自己数据进行训练，没有条件的同学可以利用原工程生成pha作为训练数据。模型最好精度为SAD: 7.61，MSE: 9.47，模型为stage3.pdparams。

In [1]

# [VideoMatte240K & PhotoMatte85 数据集](https://grail.cs.washington.edu/projects/background-matting-v2/#/datasets)# [Distinctions646_person 数据集](https://github.com/cs-chan/Total-Text-Dataset)# 数据集需要申请，请自行下载! ./run.sh

验证

In [2]

# 解压测试集!unzip ./data/data111962/PhotoMatte85_eval.zip -d ./data/

In [4]

!python eval.py

W1013 17:35:31.830500   406 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W1013 17:35:31.835165   406 device_context.cc:422] device: 0, cuDNN Version: 7.6.
  0%|                                                    | 0/85 [00:00<?, ?it/s]/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/tensor/creation.py:125: DeprecationWarning: `np.object` is a deprecated alias for the builtin `object`. To silence this warning, use `object` by itself. Doing this will not modify any beh*ior and is safe. 
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  if data.dtype == np.object:
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dygraph/math_op_patch.py:239: UserWarning: The dtype of left and right variables are not the same, left dtype is paddle.float32, but right dtype is paddle.bool, the right dtype will convert to paddle.float32
  format(lhs_dtype, rhs_dtype, lhs_dtype))
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dygraph/math_op_patch.py:239: UserWarning: The dtype of left and right variables are not the same, left dtype is paddle.float32, but right dtype is paddle.float64, the right dtype will convert to paddle.float32
  format(lhs_dtype, rhs_dtype, lhs_dtype))
100%|███████████████████████████████████████████| 85/85 [00:28<00:00,  2.96it/s]
paddle output:  SAD: 8.519970015918508, MSE: 9.885075489212484

预测

In [6]

!python predict.py

W1013 18:00:01.562386  1535 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W1013 18:00:01.567060  1535 device_context.cc:422] device: 0, cuDNN Version: 7.6.
s*e results：./image/01_pred.jpg

以上就是抠像任务：基于飞桨复现BackgroundMattingV2模型的详细内容，更多请关注其它相关文章！

# 中也 # 南京seo专业优化 # 滁州seo公司选择17火星 # 酒的网络营销推广方案 # 山西专业网站建设公司 # 自媒体网络营销推广方式 # 浙江seo营销打造企业 # 江西seo入门方法 # 青海小红书高质量推广网站 # 湖北seo引擎优化方法 # seo优化哪个内容好 # 都为 # 可以利用 # 可以根据 # python # 是由 # 自己的 # 一言 # 抠像 # 中文网 # 的是 # type # udio # deepl # red # ai # qq # git

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-07-18

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。