生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

生成超10万bp的dna序列,北理工邵斌团队生成式dna大语言模型,登nature子刊

作者 | 邵斌团队
编辑 | ScienceAI
2025 年 10 月 30 日,北京理工大学邵斌教授团队在《Nature Communications》杂志上发表了题为:《A long-context language model for deciphering and generating bacteriophage genomes》的最新研究成果,实现了首个生成式 DNA 大语言模型,megaDNA。
该模型利用无标注的噬菌体(感染细菌的病毒)基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,更能够生成长达 10 万碱基对的崭新基因组片段,即像写作自然语言一样生成 DNA 序列。
另外,模型在学习过程中获得的嵌入层信息(embedding),还能应用于蛋白质功能预测、基因调控研究,以及无标注 DNA 片段分类等多个下游任务。

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

文章链接:https://www.nature.com/articles/s41467-024-53759-4
背景介绍
什么是「生成式」语言模型?简单来说,就是以 GPT 为代表的语言模型。自 transformer 架构提出以来,发展出了语言模型的两个流派,一个是 BERT 模型,采用类似完形填空的方式来训练;一个是 GPT 模型,采用词语接龙的方式来进行训练。
可以想见,后者更接近普通人说话或者写作的过程,即逐字地构建句子和段落,因而它具备更强大的生成能力,也是目前大语言模型的主流架构。生成式任务一方面与人类语言和沟通的形式天然一致,因为遣词造句是交流的基础。另一方面,词语接龙本身是一类比较难的任务,能够完成这类任务的语言模型实际上已经很好地掌握了序列数据中所蕴含的信息和概念。
为什么要开发针对 DNA 序列的大语言模型?
我们知道人类的语言是一种序列信息,而生命的语言 DNA 也是一种序列信息。生成式大语言模型在人类语言处理和生成上取得了巨大的成功,成为我们阅读,学习和写作的有力助手。
我们就想能否把这套方法应用在生命的序列上,即在生命的语言 DNA 上训练大语言模型,从而帮助我们解读 DNA 编码的信息,设计出具有特定功能的 DNA 片段,甚至构建具有医疗或者工业应用价值的新型微生物。
倘若我们能像写作有意义的文字一样编写具有功能的 DNA 序列,像阅读论文一样从 DNA 编码中获取有价值的信息,那么这样的模型将具有巨大的学术和应用价值。
模型架构
训练基于 DNA 序列的语言模型既有优势,也有挑战。优势在于训练数据的规模。历史的经验表明,语言模型的训练效果高度依赖于训练数据的规模大小,数据越多,模型可以做的更大,训练的效果也会越好。
随着 DNA 测序技术的飞速发展,DNA 序列积累的速度非常快,比如一个完整人类基因组的测序成本已经从本世纪初的约一亿美元下降到现在的几百美元。而这些大规模数据还没有得到有效的应用,对机器学习来讲无疑是很大的一个「富矿」。
然而,训练这类 DNA 语言模型也存在困难,主要挑战是生成式语言模型难以应用于长序列,输入序列越长而显存消耗越大。而对于 DNA 序列,即使是简单的噬菌体(针对细菌的病毒)也往往长达几万个碱基对,传统的 transformer 模型难以对其进行处理。
从去年开始,语言模型的输入长度问题得到了极大关注,研究者提出了很多解决这一问题的技术。
我们借鉴了最新的长读长语言模型的研究结果,即目前在 Meta 工作的大语言模型专家 Yu Lili 博士提出的多层 Transformer 结构。
我们模型设计了三层的 Transformer 结构,用来处理不同精度的 DNA 信息,最终实现了大约 10 万个碱基对的输入长度,这个长度虽然小于人类基因组或者细菌基因组的长度,但已经足够覆盖噬菌体的基因组了。因此,我们使用完整的噬菌体基因组序列作为模型的输入来进行训练。并且,我们采集了大约 10 万个高质量噬菌体基因组序列,训练后得到 megaDNA 模型。

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

图示:模型概述。(来源:论文)
从头生成基因组DNA序列
以 GPT 为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。我们利用 megaDNA 模型生成了一千条崭新的基因组 DNA 序列,并利用软件 geNomad 对序列进行系统评估。
这些人工生成的基因组序列平均长度为 4.3 万碱基对,包含 67 个预测基因,这些特征与训练数据中的真实噬菌体基因组高度相似。其中 22% 的序列被识别为有尾噬菌体目(Caudoviricetes)。
在表达调控方面,这些序列具有完整的可能发挥功能的基因表达系统,包括典型的细菌启动子序列(-35 和-10 区),其 5 端非翻译序列的转录活性显著高于随机 DNA。同时在起始密码子 ATG 前具有富含 A 和 G 碱基的核糖体结合位点(RBS)。通过 EMSFold 进行结构预测,结果显示这些预测的基因能够形成有效的蛋白质折叠结构。
在功能方面,预测基因编码了噬菌体所需的关键功能蛋白,涵盖尾部结构、DNA 代谢、头部组装以及细胞裂解等功能。值得一提的是,这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。
必需基因的无监督预测
megaDNA 模型的另外一个应用是之前模型或者生物信息学软件很难实现的,就是必需基因的预测。必需基因的含义在于如果这些基因丧失了功能,噬菌体就不能完成完整的复制的过程。
实验上确定必需基因十分繁琐而耗时,通常需要对每个基因进行敲除实验来观察噬菌体能否正常复制。而我们的模型能够在不经过任何调整和额外训练的情况下,对必需基因进行计算预测。
我们在 lambda 噬菌体这种大家广泛研究的模式生物上做了验证,针对基因组序列进行了基因敲除的模拟实验,对基因组不同位置片段进行突变,利用语言模型计算序列损失,并与实际的 CRISPR 基因敲除实验结果进行直接比对。
计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合,相应的预测准确度(AUROC)达到 0.86。
进一步思考,我们的模型可以在几万个噬菌体基因组上得到应用,极大提升找寻对应必需基因的效率。
结论
综上,该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为噬菌体基因组注释和功能序列设计开辟了全新的路径。
虽然目前生成的基因组片段还未能实现噬菌体的完整生命功能(如有效自我复制)。但该研究及后续工作为从头设计以噬菌体为代表的完整生物体基因组奠定了新的计算基础,有望在医疗、农业、食品安全等多个领域取得广泛应用。
北京理工大学准聘教授邵斌(前 Broad Institute 计算科学家)为文章的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。
代码:https://github.com/lingxusb/megaDNA

以上就是生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊的详细内容,更多请关注其它相关文章!


# 人工智能  # 来袭  # 开源  # 应用于  # 长达  # 这类  # 多个  # 为什么  # ai  # git  # 科学  # 生物计算  # 理论  # 万个  # seo人员职责大连  # 关键词排名点击软件riyiseo  # 鄱阳县网站优化平台  # 铁岭行业关键词排名  # seo优化工具原理  # 英雄合击网站建设  # 好利来网络营销推广方案  # 美容营销推广号思路分析  # seo黑帽技术发帖  # 嘉兴seo策略  # 的是  # 核糖体  # 数倍 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  AI与5G的强强联合:唤醒数字时代的无尽潜能  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  《共同的演化》展览启幕,重新思考人类与人工智能关系  北京市元宇宙产业创新中心筹建工作正式启动  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  “三夏”农忙保障用电,无人机高空巡视高压线  鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6  《上古卷轴5》AI高清材质包优化游戏中所有怪物  “痴迷”元宇宙,魔珐科技想做什么?  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  严打“黑飞”,无人机检测反制设备护航大运会净空安全  京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  抖音在Android平台获得VR|直播|软件著作权  深剖Apple Vision Pro中暗藏的“AI”  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下  给小朋友最好的科技礼物:乐天派桌面机器人  关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  工业机器人及非标自动化设备集成服务提供商  机器人技能大比拼  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  社区里,孩子们体验“机器人竞技”  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  大模型新品出现井喷,AI产业迎来新时代  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  特斯拉人形机器人将亮相 预计售价不超过15万元  吉林首例!机器人辅助下搭桥手术成功实施  讯飞星火大模型实现升级 助力通用人工智能人才培养  联通发布鸿湖图文AI大模型1.0,可实现以文生图  成功孵化首个大型模型解决方案的重庆人工智能创新中心  生活垃圾智能分类机器人社区展“才能”,征求居民意见  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  13 个提高生产力的 AI 工具  日本演员工会提出AI立法建议 要求建立“声音肖像权”  杭州举办第19届亚运会,主题为「亚运元宇宙」的发布仪式举行  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播! 

 2024-11-18

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.