Step-Video-TI2V— 阶跃星辰开源的图生视频模型


Step-Video-TI2V是什么

step-video-ti2v 是阶跃星辰(stepfun)推出的开源图生视频(image-to-video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(video-vae),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。用户可以通过设置运动分数(motion score)来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

星辰Agent 星辰Agent

科大讯飞推出的智能体Agent开发平台,助力开发者快速搭建生产级智能体

星辰Agent 378 查看详情 星辰Agent

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Video-TI2V— 阶跃星辰开源的图生视频模型

Step-Video-TI2V的主要功能

  • 图生视频生成:用户可以提供一张图片和相关的文本描述,模型会根据这些输入生成一段连贯的视频。
  • 高质量视频输出:支持生成最多 102 帧、5 秒、540P 分辨率的视频,能满足多种创作需求。
  • 动态性调节:用户可以通过设置运动分数(motion score)来控制视频的动态性。例如,运动分数为 2 时,视频更稳定但动态性较差;运动分数为 10 或 20 时,视频的动态性更强。
  • 平衡动态与稳定:通过运动分数的调节,用户可以在动态效果和稳定性之间找到最佳平衡。
  • 镜头运动控制:支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
  • 电影级运镜效果:能生成类似电影级别的复杂运镜效果,满足专业创作需求。
  • 动漫效果优化:在动漫风格视频生成方面表现出色,能生成具有虚化背景、动态动作等特效的视频。适合用于动画创作、短视频制作等应用场景。
  • 灵活的视频尺寸:支持多种尺寸的视频生成,包括横屏、竖屏和方屏,用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
  • 多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。
  • 特效生成能力:初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。

Step-Video-TI2V的技术原理

  • 深度压缩的变分自编码器(Video-VAE):Step-Video-TI2V 使用了深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。Video-VAE 采用了双路径架构,能有效分离高低频信息,进一步优化视频生成的效果。
  • 基于扩散的 Transformer(DiT)架构:模型基于扩散的 Transformer(DiT)架构,包含 3D 全注意力机制。通过 Flow Matching 训练方法,将输入噪声逐步去噪为潜在帧,将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
  • 双语文本编码器:Step-Video-TI2V 配备了双语文本编码器,能处理中英文提示。使模型可以直接理解中文或英文输入,生成与文本描述相符的视频。
  • 直接偏好优化(DPO):为了进一步提升生成视频的质量,Step-Video-TI2V 引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
  • 级联训练策略:模型采用了级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练。加速了模型的收敛,充分利用了不同质量的视频数据。
  • 系统优化:Step-Video-TI2V 在系统层面进行了优化,包括张量并行、序列并行和 Zero1 优化,实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry,优化数据传输效率和识别性能瓶颈。

Step-Video-TI2V的项目地址

  • Github仓库:http://github.com/stepfun-ai/Step-Video-TI2V
  • HuggingFace模型库:http://huggingface.co/stepfun-ai/stepvideo-ti2v
  • arXiv技术论文:http://arxiv.org/pdf/2503.11251

如何使用Step-Video-TI2V

  • 访问跃问视频:访问跃问视频的官方网站或App端。
  • 操作步骤:点击上传图片,输入文本描述。调整参数(如运动分数等)。点击生成按钮,下载或分享视频。

Step-Video-TI2V的应用场景

  • 动画制作:Step-Video-TI2V 特别擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
  • 短视频制作:模型支持多种运镜方式,如推拉摇移、旋转、环绕等,能生成具有电影级效果的短视频。
  • 动作教学:Step-Video-TI2V 可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
  • 特效制作:模型能生成具有美感和真实感的视频,适用于电影、电视剧和游戏中的特效制作。
  • 产品展示:Step-Video-TI2V 可以生成吸引人的广告视频,展示产品特点或品牌故事。

以上就是Step-Video-TI2V— 阶跃星辰开源的图生视频模型的详细内容,更多请关注其它相关文章!


# 实现了  # 温州关键词排名定制  # 拖拽式网站建设定制  # 加强网站建设的通知  # 茂名seo排名原理  # 清远专业网站推广公司  # 网店seo营销  # 庐山市网站推广  # 音响国内推广网站  # 漯河360营销网站优化  # 京东推广网站是什么  # 特效制作  # git  # 安装包  # 数为  # 一键  # 用户可以  # 采用了  # 上下左右  # 可以通过  # 开源  # 跃问视频  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 苹果头显降临,AI虚拟人的救星还是流星?  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  微盟宣布联合腾讯云共建行业大模型:加快激活AI大模型智能应用  Snow Kylin登陆中国列车,打造全球首条元宇宙专列  你们的开机第一屏画面要变了!安卓机器人首次3D化  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  这效果能打几分?AI真人化《名侦探柯南》  大疆 Air 3 无人机售价和实物照片曝光  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  比尔盖茨:AI确实存在风险,但可控  【机智云物联网低功耗转接板】远程环境数据采集探索  “三夏”农忙保障用电,无人机高空巡视高压线  人才智能平台转型中的人工智能的关键角色  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  消息称字节机器人团队已有约50人,计划年底扩充到上百人  创新科学家成功研发FAST激光靶标维护机器人  站在社会的高度理解人工智能  掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单  世界人工智能大会上,科大讯飞宣布与华为联手  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  微软新出热乎论文:Transformer扩展到10亿token  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  人工智能如何与智能家居集成  先进技术在防止全球数据丢失方面的作用  五个出色的人工智能应用实例  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  七大主流AI企业包括OpenAI、谷歌等联合承诺:引入水印技术,并允许第三方审核AI内容  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  不到2S创作AI图像!Snap发布图像生成器SnapFusion  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  人工智能在项目管理中的作用  宇宙探索下一阶段,机器代替人类,AI会在太空探索中取代人类吗?  华为盘古AI模型实现秒级全球气象预报时间缩短  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  自己动手使用AI技术实现数字内容生产  揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  智能公司为何纷纷投身机器人领域?  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!  杀入生成式AI的亚马逊云科技,能否再次生成未来?  人工智能正在弥合认知和表达之间的鸿沟  谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能  建立元宇宙产业联盟:移动、咪咕、华为、小米等加入  “世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画  普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂  定义人工智能的十个关键术语  Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!  人工智能驱动智能建筑会是未来趋势吗? 

 2025-03-22

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.