刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中


deepseek开源高效型mla解码核flashmla,助力hopper gpu推理加速!上周五deepseek预告开源周计划,并于北京时间周一上午9点开源了首个项目——flashmla,一款针对hopper gpu优化的高效mla解码内核,仅上线45分钟便收获400+star!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

image.png

该项目Star数量持续飙升!

image.png

项目地址:https://www.php.cn/link/a588b762d68fe60225d3de3c647a52b9

FlashMLA的核心在于优化可变长度序列处理,减少推理过程中的KV Cache,从而在有限硬件资源下实现更长上下文推理,显著降低推理成本。 目前已发布的版本支持BF16精度和64大小的分页kvcache,在H800 SXM5 GPU上内存速度上限达3000 GB/s,计算上限达580 TFLOPS。

使用条件:

  • Hopper GPU
  • CUDA 12.3及以上版本
  • PyTorch 2.0及以上版本

快速上手:

安装:

MedPeer科研绘图 MedPeer科研绘图

生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新

MedPeer科研绘图 166 查看详情 MedPeer科研绘图
python setup.py install

基准测试:

python tests/test_flash_mla.py

在H800 SXM5上使用CUDA 12.6,内存绑定配置下可达3000 GB/s,计算绑定配置下可达580 TFLOPS。

使用方法示例:

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

FlashMLA开源后获得广泛好评,甚至有网友调侃“第五天会是AGI”。

image.pngimage.pngimage.png

这无疑是真正的开源精神的体现!

以上就是刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中的详细内容,更多请关注其它相关文章!


# 而在  # 福田门户网站推广方法  # 广东建设协会网站首页  # 丹东专业网站建设选哪家  # 广州海外seo招聘  # 深圳抖音seo矩阵系统  # 江干优化网站  # 霞浦租房网站建设管理  # 福永seo整站优化公司  # 网站建设推广费用谁出  # 微网站建设的流程  # 中文网  # 相关文章  # 产业  # 祝福语  # 核心技术  # 绑定  # 内测  # 可达  # 一言  # 开源  # ai  # git  # python  # flashmla  # deepseek 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备  AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  生成式人工智能来了,如何保护未成年人? | 社会科学报  美妆行业在AI时代蓬勃发展  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作  拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障  华为小艺AI助手将实现强大的大模型能力  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  让AI助手带您轻松愉快地享受写作之旅  你大脑中的画面,现在可以高清还原了  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  “三夏”农忙保障用电,无人机高空巡视高压线  北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?  高质量数据推动AI场景化应用快速发展及落地  央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天  警惕!AI或致虚假信息泛滥  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  阿里达摩院向公众免费开放100项AI专利许可  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  “痴迷”元宇宙,魔珐科技想做什么?  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  人工智能在商业中的风险和局限性  中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军  马克龙密会AI专家,法国加入全球人工智能竞赛  2025年的网络分区:人工智能和自动化如何改变事物  大厂出品!这个AI网站太顶了,所有功能免费用  人工智能颠覆软件测试四大方式  DreamAvatar数字人在哪里下载  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载  日新月异,脑机接口技术都有哪些新应用?  Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用  苹果式 AI 哲学:不着一字,处处落子  五款 AI 网站构建器,任何人都能快速构建网站  AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏  揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  小米9号员工李明宣布创业:打造首款安卓桌面机器人  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会  2025 WAIC|美团无人机发布第四代新机型  下一个前沿:量子机器学习和人工智能的未来  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  华为HarmonyOS 4将集|成人|工智能大型模型  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理 

 2025-02-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.