谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择


谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

而且测试并不是在JAX性能表现最好的TPU上完成的。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

但未来,也许有更多的大模型会基于JAX平台进行训练和运行。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

模型

最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras 2进行了基准测试。

首先,他们为生成式和非生成式人工智能任务选择了一组主流的计算机视觉和自然语言处理模型:

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

对于模型的Keras版本,其采用了KerasCV和KerasNLP中已有的实现进行构建。而对于原生的PyTorch版本,则选择了网络上最流行的几个选项:

- 来自HuggingFace Transformers的BERT、Gemma、Mistral

- 来自HuggingFace Diffusers的StableDiffusion

- 来自Meta的SegmentAnything

他们将这组模型称作「Native PyTorch」,以便与使用PyTorch后端的Keras 3版本进行区分。

他们对所有基准测试都使用了合成数据,并在所有LLM训练和推理中使用了bfloat16精度,同时在所有LLM训练中使用了LoRA(微调)。

根据pytorch团队的建议,他们在原生pytorch实现中使用了torch.compile(model, mode="reduce-overhead")(由于不兼容,gemma和mistral训练除外)。

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

为了衡量开箱即用的性能,他们使用高级API(例如HuggingFace的Trainer()、标准PyTorch训练循环和Keras model.fit()),并尽可能减少配置。

硬件配置

所有基准测试均使用Google Cloud Compute Engine进行,配置为:一块拥有40GB显存的NVIDIA A100 GPU、12个虚拟CPU和85GB的主机内存。

基准测试结果

表2显示了基准测试结果(以步/毫秒为单位)。每步都涉及对单个数据批次进行训练或预测。

结果是100步的平均值,但排除了第一个步,因为第一步包括了模型创建和编译,这会额外花费时间。

为了确保比较的公平性,对于相同的模型和任务(不论是训练还是推理)都使用相同的批大小。

然而,对于不同的模型和任务,由于它们的规模和架构有所不同,可根据需要调整数据批大小,从而避免因过大而导致内存溢出,或是批过小而导致GPU使用不足。

过小的批大小也会使PyTorch看起来较慢,因为会增加Python的开销。

对于大型语言模型(Gemma和Mistral),测试时也使用了相同的批处理大小,因为它们是相同类型的模型,具有类似数量的参数(7B)。

考虑到用户对单批文本生成的需求,也对批大小为1的文本生成情况进行了基准测试。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

关键发现

发现1

不存在「最优」后端。

Keras的三种后端各展所长,重要的是,就性能而言,并没有哪一个后端能够始终胜出。

选择哪个后端最快,往往取决于模型的架构。

这一点突出了选择不同框架以追求最佳性能的重要性。Keras 3可以帮助轻松切换后端,以便为模型找到最合适的选择。

发现2

Keras 3的性能普遍超过PyTorch的标准实现。

相对于原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明显的提升。

特别是,在10个测试任务中,有5个的速度提升超过了50%。其中,最高更是达到了290%。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

如果是100%,意味着Keras 3的速度是PyTorch的2倍;如果是0%,则表示两者性能相当

发现3

Keras 3提供一流的「开箱即用」性能。

也就是,所有参与测试的Keras模型都未进行过任何优化。相比之下,使用原生PyTorch实现时,通常需要用户自行进行更多性能优化。

除了上面分享的数据,测试中还注意到在HuggingFace Diffusers的StableDiffusion推理功能上,从版本0.25.0升级到0.3.0时,性能提升超过了100%。

同样,在HuggingFace Transformers中,Gemma从4.38.1版本升级至4.38.2版本也显著提高了性能。

这些性能的提升凸显了HuggingFace在性能优化方面的专注和努力。

对于一些手动优化较少的模型,如SegmentAnything,则使用了研究作者提供的实现。在这种情况下,与Keras相比,性能差距比大多数其他模型更大。

这表明,Keras能够提供卓越的开箱即用性能,用户无需深入了解所有优化技巧即可享受到快速的模型运行速度。

发现4

Keras 3的表现始终优于Keras 2。

例如,SegmentAnything的推理速度提升了惊人的380%,StableDiffusion的训练处理速度提升了150%以上,BERT的训练处理速度也提升了100%以上。

这主要是因为Keras 2在某些情况下直接使用了更多的TensorFlow融合操作,而这可能对于XLA的编译并不是最佳选择。

值得注意的是,即使仅升级到Keras 3并继续使用TensorFlow后端,也能显著提升性能。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

结论

框架的性能在很大程度上取决于具体使用的模型。

Keras 3能够帮助为任务选择最快的框架,这种选择几乎总能超越Keras 2和PyTorch实现。

更为重要的是,Keras 3模型无需进行复杂的底层优化,即可提供卓越的开箱即用性能。

以上就是谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择的详细内容,更多请关注其它相关文章!


# 开源  # 沙洋seo资质  # 清远联客易网站建设公司  # 电视剧的推广营销  # 外贸网站建设意见  # 抖音seo怎么授权  # 怀来网站建设优化  # 蚌埠矩阵营销推广哪家好  # 云南保山网站建设价格  # 抖音seo步骤  # 网站seo系统  # 模型  # 中国  # 上海  # 升级到  # 丰田  # 中国科学院  # 即用  # 使用了  # 的是  # 后端  # 数据 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  在心理治疗中用VR技术,治疗成效显著提高  马斯克发推讽刺人工智能:机器学习的本质就是统计  当一切设备都受到人工智能的控制  Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  “具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  自动驾驶汽车避障、路径规划和控制技术详解  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人  Nature封面:量子计算机离实际应用还有两年  微软Xbox称VR和AR还需要时间 先玩大的  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  埃森哲俞毅:AI时代我们需要新的“摩尔定律”  工业机器人及非标自动化设备集成服务提供商  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  优地网络助力新媒体拥抱人工智能时代  AI绘画,还需要懂数学?  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  Meta发布音频AI模型,仅需2秒片段模拟真人语音  调查:过半数艺术家认为 AI 作图无法帮助他们的工作  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  陈根:ChatGPT和人类合作开发机器人  联通发布鸿湖图文AI大模型1.0,可实现以文生图  微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  干货满满,2025昆山元宇宙国际装备展等你来打卡!  Vision Pro头显重磅发布;苹果收购AR厂商Mira  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  苹果推出全新沉浸式 AR 体验应用“Deep Field”  小艺主导智慧交互升级,借助AI大模型增强能力  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  研究预测HPC支持的人工智能增长迅速  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会 

 2024-04-01

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.