StyleClip


本文介绍StyleCLIP:文本驱动的图像处理。它结合StyleGAN V2与CLIP模型,通过语言描述编辑图像,不受预标注属性限制。复现用PaddleGAN的预训练模型,包括StyleGAN V2生成器、Pixel2Style2Pixel转换风格向量,依赖Paddle-CLIP和dlib。还说明安装、生成图片、风格向量及训练等步骤与参数。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

styleclip -

StyleCLIP: 文本驱动的图像处理

1. 简介

StyleGAN V2 的任务是使用风格向量进行image generation,而Clip guided Editing 则是利用CLIP (Contrastive Language-Image Pre-training ) 多模态预训练模型计算文本输入对应的风格向量变化,用文字表述来对图像进行编辑操纵风格向量进而操纵生成图像的属性。相比于Editing 模块,StyleCLIP不受预先统计的标注属性限制,可以通过语言描述自由控制图像编辑。

原论文中使用 Pixel2Style2Pixel 的 升级模型 Encode4Editing 计算要编辑的代表图像的风格向量,为尽量利用PaddleGAN提供的预训练模型本次复现中仍使用Pixel2Style2Pixel计算得到风格向量进行实验,重构效果略有下降,期待PaddleGAN跟进e4e相关工作。

准备代码

In [ ]
#!git clone --depth 1 https://github.com/ultranity/PaddleGAN
   

安装

StyleCLIP 模型 需要使用简介中对应提到的几个预训练模型, 本次复现使用PPGAN 提供的 在FFHQ数据集上进行预训练的StyleGAN V2 模型作为生成器,并使用Pixel2Style2Pixel模型将待编辑图像转换为对应风格向量。

CLIP模型依赖Paddle-CLIP实现。 pSp模型包含人脸检测步骤,依赖dlib框架。 除本repo外还需要安装 Paddle-CLIP 和 dlib 依赖。

整体安装方法如下。

pip install -e .
pip install paddleclip
pip install dlib-bin
    In [ ]
%cd ~/PaddleGAN/
!pip install -e .
    In [ ]
!pip install paddleclip dlib-bin
   

生成随机图片

In [14]
%cd ~/PaddleGAN/
!python -u applications/tools/styleganv2.py \
       --n_row 1 --n_col 1  \
       --output_path '/home/aistudio/output_dir' --model_type ffhq-config-f --seed 1
       
/home/aistudio/PaddleGAN
[06/16 23:30:17] ppgan INFO: Found /home/aistudio/.cache/ppgan/stylegan2-ffhq-config-f.pdparams
W0616 23:30:20.268061  2162 gpu_context.cc:278] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0616 23:30:20.272033  2162 gpu_context.cc:306] device: 0, cuDNN Version: 7.6.
       

生成风格向量

In [15]
%cd ~/PaddleGAN/
!python -u applications/tools/pixel2style2pixel.py \
       --input_image '/home/aistudio/output_dir/sample.png' \
       --output_path '/home/aistudio/output_dir' --model_type ffhq-inversion --seed 2333
       
/home/aistudio/PaddleGAN
[06/16 23:30:34] ppgan INFO: Found /home/aistudio/.cache/ppgan/pSp-ffhq-inversion.pdparams
W0616 23:30:48.542668  2221 gpu_context.cc:278] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0616 23:30:48.546530  2221 gpu_context.cc:306] device: 0, cuDNN Version: 7.6.
       
@@##@@                     @@##@@                    
原图 重构

StyleCLIP 生成

参数说明:

  • latent: 要编辑的代表图像的风格向量的路径。可来自于Pixel2Style2Pixel生成的dst.npy或StyleGANv2 Fitting模块生成的dst.fitting.npy
  • output_path: 生成图片存放的文件夹
  • weight_path: 或StyleGANv2 预训练模型路径
  • model_type: 模型类型,当前使用: ffhq-config-f
  • direction_path: 存放CLIP统计向量的文件路径
  • stats_path: 存放向量统计数据的文件路径
  • neutral: 对原图像的中性描述,如 face
  • target: 为对目标图像的描述,如 young face
  • beta_threshold: 向量调整阈值
  • direction_offset: 属性的偏移强度
  • cpu: 是否使用cpu推理,若不使用,请在命令中去除

!以下 参数需与StyleGAN 预训练模型保持一致

  • size: 模型参数,输出图片的分辨率
  • style_dim: 模型参数,风格z的维度
  • n_mlp: 模型参数,风格z所输入的多层感知层的层数
  • channel_multiplier: 模型参数,通道乘积,影响模型大小和生成图片质量

-direction_offset- 沿目标属性方向移动的修改强度,参考值为5。

Openflow Openflow

一键极速绘图,赋能行业工作流

Openflow 88 查看详情 Openflow

-beta_threshold- 较大的值意味着更强的解纠缠,而使得更少通道被编辑,以使得只有目标属性被更改,但如果beta_threshold太大则不足以执行所需的编辑。较小的值意味着更多的通道被编辑,有可能使其他不相关属性也被更改。

每次操作都会打印被操作的通道数,通常10-20个通道就足够了。对于较大的结构变化,通常需要100-200个通道,需要对应调整beta_threshold和direction_offset的值。

变换对举例

Edit Neutral Text Target Text
Smile face smiling face
Gender female face male face
Blonde hair face with hair face with blonde hair
Hi-top fade face with hair face with Hi-top fade hair
Blue eyes face with eyes face with blue eyes

目前有两套不同随机种子训练所得模型权重可用,生成结果细节有不同

--direction_path='stylegan2-ffhq-config-f-styleclip-global-directions.pdparams' \--stat_path='stylegan2-ffhq-config-f-styleclip-stats.pdparams'
       
--direction_path='stylegan2-ffhq-config-f-styleclip-global-directions0.pdparams' \--stat_path='stylegan2-ffhq-config-f-styleclip-stats0.pdparams'
    In [26]
%cd ~
!python PaddleGAN/ppgan/apps/styleganv2clip_predictor.py generate --latent 'output_dir/dst.npy' \
--neutral='face' --target='short hair face' \
--beta_threshold 0.12 --direction_offset 5 \
--direction_path='stylegan2-ffhq-config-f-styleclip-global-directions.pdparams' \
--stat_path='stylegan2-ffhq-config-f-styleclip-stats.pdparams'
       
/home/aistudio
[06/16 23:35:40] ppgan INFO: Found /home/aistudio/.cache/ppgan/stylegan2-ffhq-config-f.pdparams
W0616 23:35:43.785570  3708 gpu_context.cc:278] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0616 23:35:43.789443  3708 gpu_context.cc:306] device: 0, cuDNN Version: 7.6.
max delta_s is 0.2481601983308792
112 channels will be manipulated under the  beta threshold 0.12
       
@@##@@                     @@##@@                    
原图 生成

StyleCLIP 训练

在StyleCLIP论文中作者研究了 3 种结合 StyleGAN 和 CLIP 的方法:

  1. 文本引导的风格向量优化,使用 CLIP 模型作为损失网络对现有风格向量进行多次迭代更新,但该方法对每次处理都需要重新训练。
  2. 训练 风格向量映射器,使CLIP文本特征向量映射至StyleGAN 风格向量空间,避免(1)方法的训练问题,但可控性较差,经论文对比其生成质量也不如(3)。
  3. 在 StyleGAN 的 StyleSpace 中,把文本描述映射到输入图像的全局方向 (Global Direction),进而运行自由控制图像操作强度以及分离程度,实现类似于StyleGAN Editing 模块的使用体验。

本次仅复现论文中效果最好的 (3)Global Direction 方法。

StyleCLIP Global Direction 训练过程分两步:

  1. 提取风格向量并统计
python styleclip_getf.py
       
  1. 结合CLIP模型计算转换矩阵
python ppgan/apps/styleganv2clip_predictor.py extract
    In [27]
!python PaddleGAN/tools/styleclip_getf.py
       
[06/16 23:36:27] ppgan INFO: Found /home/aistudio/.cache/ppgan/stylegan2-ffhq-config-f.pdparams
W0616 23:36:31.398654  3895 gpu_context.cc:278] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0616 23:36:31.402468  3895 gpu_context.cc:306] device: 0, cuDNN Version: 7.6.
100%|███████████████████████████████████████| 1000/1000 [00:48<00:00, 20.51it/s]
100%|██████████████████████████████████████████| 20/20 [00:00<00:00, 106.77it/s]
100%|███████████████████████████████████████████| 20/20 [00:00<00:00, 35.95it/s]
100%|█████████████████████████████████████████| 980/980 [00:17<00:00, 56.01it/s]
Done.
        In [6]
!python PaddleGAN/ppgan/apps/styleganv2clip_predictor.py extract
       
[05/19 19:35:44] ppgan INFO: Downloading stylegan2-ffhq-config-f.pdparams from https://paddlegan.bj.bcebos.com/models/stylegan2-ffhq-config-f.pdparams to /home/aistudio/.cache/ppgan/stylegan2-ffhq-config-f.pdparams
100%|████████████████████████████████| 194006/194006 [00:02<00:00, 72709.93it/s]
W0519 19:35:51.973740  1169 gpu_context.cc:278] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W0519 19:35:51.977663  1169 gpu_context.cc:306] device: 0, cuDNN Version: 7.6.
total channels to manipulate: 6048

Style manipulation in layer "0"
100%|███████████████████████████████████████| 512/512 [1:46:22<00:00, 12.40s/it]

Style manipulation in layer "2"
100%|███████████████████████████████████████| 512/512 [1:45:44<00:00, 12.39s/it]

Style manipulation in layer "3"
100%|███████████████████████████████████████| 512/512 [1:45:41<00:00, 12.38s/it]

Style manipulation in layer "5"
100%|███████████████████████████████████████| 512/512 [1:45:41<00:00, 12.39s/it]

Style manipulation in layer "6"
100%|███████████████████████████████████████| 512/512 [1:45:41<00:00, 12.39s/it]

Style manipulation in layer "8"
100%|███████████████████████████████████████| 512/512 [1:45:39<00:00, 12.39s/it]

Style manipulation in layer "9"
100%|███████████████████████████████████████| 512/512 [1:45:39<00:00, 12.37s/it]

Style manipulation in layer "11"
100%|███████████████████████████████████████| 512/512 [1:45:39<00:00, 12.38s/it]

Style manipulation in layer "12"
100%|███████████████████████████████████████| 512/512 [1:45:39<00:00, 12.39s/it]

Style manipulation in layer "14"
100%|███████████████████████████████████████| 512/512 [1:45:45<00:00, 12.37s/it]

Style manipulation in layer "15"
100%|█████████████████████████████████████████| 256/256 [52:48<00:00, 12.37s/it]

Style manipulation in layer "17"
100%|█████████████████████████████████████████| 256/256 [53:00<00:00, 12.44s/it]

Style manipulation in layer "18"
100%|█████████████████████████████████████████| 128/128 [26:32<00:00, 12.45s/it]

Style manipulation in layer "20"
100%|█████████████████████████████████████████| 128/128 [26:34<00:00, 12.45s/it]

Style manipulation in layer "21"
100%|███████████████████████████████████████████| 64/64 [13:16<00:00, 12.46s/it]

Style manipulation in layer "23"
100%|███████████████████████████████████████████| 64/64 [13:17<00:00, 12.46s/it]

Style manipulation in layer "24"
100%|███████████████████████████████████████████| 32/32 [06:38<00:00, 12.44s/it]
        StyleClip - StyleClip - StyleClip - StyleClip -

以上就是StyleClip的详细内容,更多请关注其它相关文章!


# 几个  # 360seo优化技术  # 徐州视频营销推广  # 北京seo高级方法  # 梅州网站优化规划设计  # 烘培工作室推广营销文案  # seo关键词优化 培训  # 烟薯推广营销号  # 嘉兴定制网站建设公司  # 台湾网站优化优势是什么  # 韶关seo快排  # 工作流  # 有可能  # 最好的  # python  # 官网  # 图像处理  # 不受  # 重构  # 一言  # 中文网  # type  # fig  # udio  # red  # ai  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  速途网络成立“人工智能专家委员会”5位中美博士加盟  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  MiracleVision视觉大模型  昌吉市利用无人机实现全天候河道动态巡检  技术如何使人变得懒惰?  AI和ML推动联网设备的增长  普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作  生成式人工智能如何改变云安全的游戏规则  Meta 人工智能业务落后竞争对手,研究人员大量离职成重要原因  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  音乐制作元工具AudioCraft发布开源AI工具  日新月异,脑机接口技术都有哪些新应用?  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  WHEE使用教程  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  调研海尔智家:AI名,家电命?  稿见AI助手:提升写作效率与质量的必备工具  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  阿里达摩院向公众免费开放100项AI专利许可  金山办公宣布与英伟达团队合作,加速WPS AI服务  陈根:AI工具为游戏软件实时3D内容助力  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  人形机器人概念大热!这些产业链标的或受提振  七大主流AI企业包括OpenAI、谷歌等联合承诺:引入水印技术,并允许第三方审核AI内容  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程  WHEE网页地址入口  PHP和OpenCV库:如何实现人脸识别  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  英伟达CEO宣称生成式AI已迎来“划时代时刻”  自动驾驶汽车避障、路径规划和控制技术详解  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?  论文插图也能自动生成了,用到了扩散模型,还被ICLR接收  丰田汽车研究院推出生成式人工智能汽车设计工具  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  DragGAN开源三天Star量23k,这又来一个DragDiffusion  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  世界人工智能大会中西部县域数字就业中心组团亮相  不到2S创作AI图像!Snap发布图像生成器SnapFusion  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析 

 2025-07-31

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.