通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5


赶在春节前,通义千问大模型(qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 ai 社区关注。

新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最强版本的性能超越了GPT 3.5和Mistral-Medium。该版本包含Base模型和Chat模型,并提供多语言支持。

阿里通义千问团队表示,相关技术也已经上线到了通义千问官网和通义千问 App。

除此以外,今天 Qwen 1.5 的发布还有如下一些重点:

  • 支持 32K 上下文长度;
  • 开放了 Base + Chat 模型的 checkpoint;
  • 可与 Transformers 一起本地运行;
  • 同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。

通过使用更先进的大型模型作为评委,通义千问团队对Qwen1.5在两个广泛使用的基准MT-Bench和Alpaca-Eval上进行了初步评估。评估结果如下:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

尽管 Qwen1.5-72B-Chat 模型相对于 GPT-4-Turbo 有些落后,但在 MT-Bench 和 Alpaca-Eval v2 上的测试中,它展现出了令人瞩目的性能。实际上,Qwen1.5-72B-Chat 在性能上超过了 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B 这些模型,与最近备受关注的 Mistral Medium 模型相媲美。这表明 Qwen1.5-72B-Chat 模型在自然语言处理方面具备了相当的实力。

通义千问团队指出,尽管大模型的评分可能与回答的长度有关,但人类的观察结果表明,Qwen1.5并没有因为产生过长的回答而影响评分。根据AlpacaEval 2.0的数据,Qwen1.5-Chat的平均长度为1618,与GPT-4的长度相同,比GPT-4-Turbo要短。

通义千问的开发者表示,近几个月以来,他们一直致力于构建一个卓越的模型,并不断提升开发者的使用体验。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

相较于以往版本,本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。在序列长度方面,所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持。同时,预训练 Base 模型的质量也有关键优化,有望在微调过程中为人们带来更佳体验。

基础能力

关于模型基础能力的评测,通义千问团队在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基准数据集上对 Qwen1.5 进行了评估。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

在不同模型尺寸下,Qwen1.5 都在评估基准中表现出强大的性能,72B 的版本在所有基准测试中都超越了 Llama2-70B,展示了其在语言理解、推理和数学方面的能力。

最近一段时间,小型模型的构建是业内热点之一,通义千问团队将模型参数小于 70 亿的 Qwen1.5 模型与社区中重要的小型模型进行了比较:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

在参数规模低于 70 亿的范围内 Qwen1.5 与业界领先的小型模型相比具有很强的竞争力。

多语言能力

在来自欧洲、东亚和东南亚的 12 种不同语言上,通义千问团队评估了 Base 模型的多语言能力。从开源社区的公开数据集中,阿里研究者构建了如下表所示的评测集合,共涵盖四个不同的维度:考试、理解、翻译、数学。下表提供了每个测试集的详细信息,包括其评测配置、评价指标以及所涉及的具体语言种类。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

详细的结果如下:

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

上述结果表明,Qwen1.5 Base 模型在 12 种不同语言的多语言能力方面表现出色,在学科知识、语言理解、翻译、数学等各个维度的评估中,均展现了不错的结果。更进一步地,在 Chat 模型的多语言能力上,可以观察到如下结果:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

长序列

随着长序列理解的需求不断增加,阿里在新版本上提升了千问模型的相应能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通义千问团队在 L-Eval 基准上评估了 Qwen1.5 模型的性能,该基准衡量了模型根据长上下文生成响应的能力。结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

从结果来看,即使像 Qwen1.5-7B-Chat 这样的小规模模型,也能表现出与 GPT-3.5 可比较的性能,而最大的模型 Qwen1.5-72B-Chat 仅略微落后于 GPT4-32k。

值得一提的是,以上结果仅展示了 Qwen 1.5 在 32K tokens 长度下的效果,并不代表模型最大只能支持 32K 长度。开发者可以在 config.json 中,将 max_position_embedding 尝试修改为更大的值,观察模型在更长上下文理解场景下,是否可以实现令人满意的效果。

链接外部系统

如今,通用语言模型的一大魅力在于其与外部系统对接的潜在能力。RAG 作为一种在社区中快速兴起的任务,有效应对了大语言模型面临的一些典型挑战,如幻觉、无法获取实时更新或私有数据等问题。此外,语言模型在使用 API 和根据指令及示例编写代码方面,展现出了强大的能力。大模型能够使用代码解释器或扮演 AI 智能体,发挥出更为广阔的价值。

通义千问团队对 Qwen1.5 系列 Chat 模型在 RAG 任务上的端到端效果进行了评估。评测基于 RGB 测试集,是一个用于中英文 RAG 评估的集合:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

然后,通义千问团队在 T-Eval 基准测试中评估了 Qwen1.5 作为通用智能体运行的能力。所有 Qwen1.5 模型都没有专门面向基准进行优化:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

为了测试工具调用能力,阿里使用自身开源的评估基准测试模型正确选择、调用工具的能力,结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

最后,由于 Python 代码解释器已成为高级 LLM 越来越强大的工具,通义千问团队还在之前开源的评估基准上评估了新模型利用这一工具的能力:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

结果表明,较大的 Qwen1.5-Chat 模型通常优于较小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不过,在数学解题和可视化等代码解释器任务中,即使是最大的 Qwen1.5-72B-Chat 模型也会因编码能力而明显落后于 GPT-4。阿里表示,会在未来的版本中,在预训练和对齐过程中提高所有 Qwen 模型的编码能力。

Qwen1.5 与 HuggingFace transformers 代码库进行了集成。从 4.37.0 版本开始,开发者可以直接使用 transformers 库原生代码,而不加载任何自定义代码(指定 trust_remote_code 选项)来使用 Qwen1.5。

在开源生态上,阿里已经与 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微调)以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有这些框架现在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平台上使用。

以上就是通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5的详细内容,更多请关注其它相关文章!


# 谁能  # 六安网站建设口碑好  # 商丘网站建设运营方案  # 临潼区推广线上营销销售  # 罗湖智能seo推广公司  # 公众号海报推广营销方案  # 学校网站建设作品介绍文案  # 太仓企业建设网站方案  # 山西营销推广案例最新  # 设备网站seo优化费用  # seo 竞价引流  # 下表  # 上海  # 新版本  # ai  # 出了  # 进行了  # 多语言  # 开源  # 再开  # 六种  # fig  # udio  # llama  # qwen  # claude  # 通义千问  # 训练 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标  改变城市交通:智慧城市中的智能交通  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘  音乐制作元工具AudioCraft发布开源AI工具  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  无人机协助盐城交通执法的协同训练  学生作文评分的新趋势:教师与AI的合作模式  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  五个出色的人工智能应用实例  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作  VMS的应用:提升多品牌设备管理效能  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务  视觉中国宣布推出AI灵感绘图、画面扩展功能  中国最强AI研究院的大模型为何迟到了  北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  IBM和NASA合作发布可追踪碳排放的开源AI基础模型  Bing 聊天机器人现支持在桌面端用语音提问  生成式人工智能如何改变云安全的游戏规则  英国前首相:AI可能被用来制造“生物恐怖武器”  美图公司影像节或发布AI设计新品  实践J*a开发,构建高性能的MongoDB数据迁移工具  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  郭帆导演成功利用AI技术制作的《流浪地球3》预告片在央视热播,引发巨大反响  参考封面|人工智能“淘金热”  人工智能在项目管理中的作用  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  IBM将模拟计算用于人工智能,重塑AI计算  全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  阿里达摩院发布免费开放100项AI专利许可的动机是什么?  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  苹果CEO库克:持续研究生成式人工智能技术  人工智能在商业中的风险和局限性  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  微软面向AI初学者推出免费网络课程 

 2024-02-07

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.