SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布


scale | 2025 年 11 月《大模型 sql 能力排行榜》发布

一、摘要与核心看点

本期 SCALE[1] 评测聚焦于新一代专业级大语言模型在数据库 SQL 领域的表现边界。

发版核心内容为 Gemini 3 Pro[2] 和 DeepSeek-V3.2-Exp[3] 两大顶尖模型的首次《深度测评报告》,旨在为用户提供最前沿、最可靠的技术选型依据。

核心看点速览:

  1. 可靠性新标杆Gemini 3 Pro 模型首次参评,在「SQL 理解」能力维度以 86.0 的高分领跑榜单,确立了其在复杂逻辑解析上的业内领先地位。

  2. 国产化潜力股DeepSeek-V3.2-Exp 模型首次入榜,其在 「国产数据库转换」方面表现出强劲潜力(92.1),为国产化替代场景提供了新的高性能选择。

二、评测目的与方法论

本次测评旨在系统性评估两大模型在企业级复杂数据库场景下的实用性。我们严格遵循 SCALE 框架自创立以来的三大核心维度和统一评测数据集,确保结果的公正性与可复现性。

评测维度

评估目标

核心应用场景

SQL 理解

对现有 SQL 代码的逻辑、意图和执行计划的深度分析能力。

数据分析、生产环境故障排查、代码审查。

SQL 优化

在保证逻辑等价下,将低效 SQL 改写为性能更优查询的策略应用和效果。

数据库性能调优、存量代码重构。

方言转换

在不同数据库方言之间进行语法迁移和复杂过程化逻辑重构的准确性和可靠性。

数据库迁移、跨平台数据中台构建。

三、Gemini 3 Pro 深度评测报告

Gemini 3 Pro 是谷歌于 2025 年 11 月 18 日推出的新一代大型语言模型。它具备卓越的推理、多模态理解与代码生成能力,在多项基准测试中领先。该模型在发布当日即整合至谷歌搜索、Gemini 应用等核心产品,旨在为用户和开发者提供更智能、直接的服务。

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

3.1 核心结论速览

Gemini 3 Pro 的能力分布呈现出 深度理解、高质优化、均衡转换 的显著特征。其「SQL 理解」能力取得榜单首位(86.0 分),优化后 SQL 语法正确性达 100 分,是面向企业级、高可靠性要求的数据库任务的理想 AI 助手。

3.2 维度详细表现与数据洞察

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

SQL 理解

  • 维度总分:86

    • 执行准确性:90.0

    • 执行计划检测:64.3

    • 语法及最佳实践:87.1

  • 关键优势执行准确性领先(90.0),逻辑保真度高,是处理复杂业务逻辑的首选。

  • 待改进点执行计划检测得分相对较低(64.3),对写操作执行计划的理解偏差,结构化输出规范性不足。

SQL 优化

  • 维度总分:72.7

    • 逻辑等价:73.7

    • 优化深度:66.7

    • 语法错误检测:100.0

  • 关键优势优化结果生产级安全:语法错误检测满分(100.0),确保优化代码可直接部署;逻辑等价性高(73.7)。

  • 待改进点优化深度得分有提升空间(66.7),在应用复杂优化策略(如消除冗余)和模式识别上的深度不足。

方言转换

  • 维度总分:77.1

    • 大 SQL 转换:61.3

    • 国产数据库:89.5

    • 逻辑等价:80.6

    • 语法错误检测:78.6

  • 关键优势国产数据库转换得分高(89.5),逻辑等价性高(80.6),全局逻辑把握强劲。

  • 待改进点大 SQL 转换得分较低(61.3);对特定国产数据库(如 OceanBase)的知识欠缺,存在知识性错误。

3.3 关键挑战与数据分析

评测中发现,Gemini 3 Pro 的主要挑战集中在对数据库底层机制的精细理解和结构化输出的严格规范性上。

1. SQL 理解维度:执行计划解析缺陷

  • 语义混淆:模型在结构化输出中未能严格遵循规范,将 JSON 的 <span>null</span> 值错误输出为字符串 <span>"NULL"</span>,导致 SQL 语义中的 <span>"NULL"</span> 与 JSON 数据类型规范发生混淆。

  • 写操作误判:在执行计划检测中,模型对数据库写操作(UPDATE/DELETE)的语义理解不足,未能识别 MySQL 优化器会使用主键索引进行行定位的优化行为,错误地将应使用索引扫描的 UPDATE 操作误判为全表扫描(<span>type: "ALL"</span>)。

2. SQL 优化维度:模式识别与策略应用不足

  • 模式识别缺陷:未能识别 <span>LIKE</span> 前缀查询模式可改写为范围查询以利用索引有序性,限制了在特定查询场景下的性能提升。

  • 冗余消除不足:未能识别并消除无 <span>LIMIT</span> 子查询中的冗余 <span>ORDER BY</span> 操作,反映出模型在细粒度语义分析和规则消除方面的不足。

  • 类型转换盲区:未能识别 <span>DATE</span> 字段与字符串比较时可能发生的隐式类型转换问题,这可能在生产环境中导致性能下降。

3. 方言转换维度:国产数据库知识短板

  • 知识性错误:在处理 Oracle 的 <span>CAST</span> 语法时,模型错误地将其替换为 OceanBase(Oracle 模式)不支持的 <span>COLLECT</span> 聚合函数,反映出模型对于国产数据库的知识储备不足,更倾向于机械转换而非基于目标环境特性进行语义等价性判断。

3.4 应用建议与价值体现

目标用户

建议应用场景

价值体现

数据分析与工程

复杂查询的逻辑验证和结果准确性预测。

确保数据洞察的可靠性。

数据库管理与开发

存量 SQL 的规范化和初步性能调优。

安全快速地提升代码质量和性能。

四、DeepSeek-V3.2-Exp 评测报告

DeepSeek-V3.2-Exp 是深度求索于 2025 年 9 月 29 日发布的实验性模型,核心创新是引入了自研的 DeepSeek 稀疏注意力机制,显著提升了长文本处理的训练和推理效率。该模型在多项基准测试中与前代 V3.1-Terminus 性能基本持平,同时 API 服务价格下调超过 50%,并已在 Hugging Face 等平台开源。

文章发布时,DeepSeek-V3.2 正式版已经发布,待评测。

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

4.1 核心结论速览

Deepseek-v3.2-exp 在本期评测中展现了明显的 能力聚焦。其在 国产数据库转换 子项上取得了 92.1 分的优异成绩,使其成为 国产化替代路径中具有突出价值的工具。然而,其在复杂逻辑处理和优化深度上的不足表明,它更适用于特定领域的辅助工作。

4.2 维度详细表现与数据洞察

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

我已理解您的要求,将严格依照您图片中的原始数据,仅调整呈现结构,确保内容完全一致。以下是按照您提供的格式重新整理的结果:

SQL 理解

  • 维度总分:66.7

    • 执行准确性:68.6

    • 执行计划检测:35.7

      独响 独响

      一个轻笔记+角色扮演的app

      独响 249 查看详情 独响
    • 语法及最佳实践:84.3

  • 关键优势语法规范性高:语法及最佳实践得分达 84.3 分,保障了生成或分析结果的格式规范。

  • 待改进点执行计划检测能力薄弱(35.7),对底层数据库执行逻辑和优化器行为的深度理解不足。

SQL 优化

  • 维度总分:61.5

    • 逻辑等价:68.4

    • 优化深度:53.3

    • 语法错误检测:89.5

  • 关键优势语法安全性高:接近 90% 的语法错误检测得分,确保了优化代码的可靠性。

  • 待改进点优化深度不足(53.3),模型在应用复杂优化策略以实现显著性能提升方面表现保守。

方言转换

  • 维度总分:58

    • 大 SQL 转换:29.0

    • 国产数据库转换:92.1

    • 逻辑等价:64.5

    • 语法错误检测:45.2

  • 关键优势国产数据库转换能力突出,得分高达 92.1 分,显示出其在国产化迁移路径上的针对性优化效果显著。

  • 待改进点大 SQL 转换能力严重不足(29.0),且 语法错误检测得分较低(45.2),转换结果的生产可用性风险较高。

4.3 关键挑战与数据分析

评测中发现,DeepSeek-V3.2-Exp 的主要挑战集中在对数据库底层机制的精细理解、SQL 优化模式识别以及跨方言语义等价转换的准确性上。

1. SQL 理解维度:执行计划解析缺陷

  • 写操作语义混淆:模型在处理 <span>INSERT/REPLACE</span> 操作时,错误地返回了具体的执行计划信息(<span>type: "INSERT", rows: "1"</span>),而 MySQL 的 EXPLAIN 对于写操作应返回 <span>type: "ALL"</span> 且 rows、Extra、filtered 等字段均为 <span>null</span>,反映出模型对写操作执行计划输出规范的理解偏差。

  • 写操作索引使用误判:在执行计划检测中,模型对数据库写操作(UPDATE)的语义理解不足,未能识别 MySQL 优化器会使用主键索引进行行定位的优化行为,错误地将应使用索引扫描的 <span>UPDATE</span> 操作返回为 <span>type: "UPDATE"</span> 而非 <span>type: "index"</span>

  • 过滤比例计算偏差:在处理 <span>DELETE</span> 操作时,模型返回 <span>filtered: "33.33"</span> 而预期应为 100,反映出模型对 <span>WHERE</span> 条件过滤比例计算逻辑的理解不足。

2. SQL 优化维度:模式识别与策略应用不足

  • 模式识别缺陷:未能识别 <span>LIKE</span> 前缀查询模式可改写为范围查询以利用索引有序性,限制了在特定查询场景下的性能提升。

  • 类型转换盲区:未能识别 DATE 字段与字符串比较时可能发生的隐式类型转换问题,即使已提供 DDL 信息,模型仍未能检测出潜在的隐式转换风险,这可能在生产环境中导致性能下降。

  • 谓词下推优化遗漏:在包含多层嵌套子查询的场景中,模型未能识别可以将过滤条件下推到更内层查询以减少中间结果集大小的优化机会。

3. 方言转换维度:语义等价性与语法准确性不足

  • 逻辑错误:在 Oracle 转 PostgreSQL 的转换中,模型将 <span>v_rows_updated := v_rows_updated + SQL%ROWCOUNT</span> 错误转换为 <span>v_rows_updated := v_rows_updated + v_rows_updated</span>,导致累加逻辑完全失效,反映出模型在跨方言语义映射时的注意力机制缺陷。

  • 类型系统理解偏差:模型在转换 Oracle 的 <span>TYPE t_sales_summary IS RECORD</span> 时,直接保留了类似的语法结构,但 PostgreSQL 9.2 不支持显式定义 RECORD 结构,RECORD 类型只能通过 <span>SELECT INTO</span> 或 <span>FOR</span> 循环隐式确定结构,反映出模型对目标数据库类型系统的理解不足,更倾向于机械转换而非基于目标环境特性进行语义等价性判断。

  • 不兼容语法残留:在 SQL Server 转 GaussDB 的转换中,模型保留了 <span>SET NOCOUNT=ON</span> 语句,但 GaussDB 不支持该语法,反映出模型对目标数据库语法约束的理解不充分。

  • 函数映射错误:在 SQL Server 转 GaussDB 的转换中,模型使用了 <span>GET DIAGNOSTICS v_cursor_status = CURSOR_STATUS</span>,但 GaussDB 的 GET DIAGNOSTICS 不支持 CURSOR_STATUS 诊断项,反映出模型对目标数据库系统函数和诊断机制的理解不足。

4.4 总结与应用建议

目标用户

建议应用场景

价值体现

数据库工程师

日常 SQL 语句的语法规范检查。

利用其高语法正确性得分,快速纠正低级错误。

企业技术决策者

数据库国产化迁移项目。

重点利用其 92.1 分的国产数据库转换能力,作为初次迁移的辅助工具,以降低人工成本。

数据分析师

仅用于基础查询逻辑的验证(执行准确性 68.6 分)。

不建议用于涉及性能调优或复杂底层逻辑(如执行计划分析)的场景。

五、专家点评

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

刘华阳,20 年经历风霜雨打的 DBA,5 年的 DBA 架构和团队管理经验,只要是数据库都喜欢学习。PostgreSQL ACE,MongoDB 狂热者,10 年的 MYSQL 工作经验,现在在玩 POLARDB 与时俱进。

哎呦,这次找到我写评论,你们可真是有点意思,不怕我这嘴毒、心狠、刺头的家伙给咱们这画风突变?不说笑了,爱可生的这个 SCALE 大模型 SQL 能力排行榜有点意思,我这算是小刀拉屁股,开了眼了。

有创新,大白话就是,真敢作呀!大模型优化 SQL 我们早就用过了,有的是非常靠谱。据我所闻,去年爱可生就有 AI SQL 类的产品了,莫不是这都是经验总结。那咱们的好好看看,你看看真是不错给我赶上了 Gemini 和 DeepSeek 这俩知名的大模型,我本来以为咱们这分析会一边倒的说 Gemini 好,可这让我没有想到,咱们这分析画风一转,国产数据库的 SQL 优化能力,那自然就是 DeepSeek 好,国产 AI 大模型优化国产数据库

这纠正了我一直对一些 AI 大模型产品的感官评价,有这样一个排行榜还真是,助人为乐。我再仔细看看,这都用了什么方式进行评价,瞎评价可不行。你看他们这用了三个维度进行评价,分别是 SQL 理解、SQL优化、方言转换,尤其这个方言转化的维度我是没有想到的,我这鸡蛋挑骨头的能力,看来暂时用不上了。

不过放弃挑骨头不是我的风格,我的给找找毛病,我仔细的看了我总结几点:

1. Gemini 在 SQL 的理解能力上非常的专业,且优化后的 SQL,比如改写 SQL 出错的概率低。大白话就是, 拿来就用,同时在处理国产的数据库的 SQL 问题也并不拉垮

2. DeepSeek 这个一看就是一个偏科生,这可能和数据的收集有关,大部分国产数据库的信息他都囊括其中,优化的数据基础是 OK 的,但是也是一个偏科生,复杂的语句的理解和转换能力差劲,同时改写 SQL 直接可以用的部分不如 Gemini

但是需要说明的是,对于复杂的 SQL,大模型进行 SQL 优化的准确性,可信性还有待提高 

如果让我看完,给出一个评价的话 Gemini 3 Pro 是一个全能、可靠、安全的专业助手。 

嘴毒评价:这说明模型可能没有接受过严格的“工程化”规范训练,缺乏在严格的程序间接口中使用的经验,专业度还差了那么一毫米。 

DeepSeek-V3.2-Exp 是一个专注国产化、但需要你时刻盯着的专业工具。 

心狠评价:在数据库迁移中,最难啃的就是大量复杂的存储过程、触发器和业务逻辑。如果 DeepSeek 在这方面直接躺平,那么它只能充当 “初级转换工具”,大量的核心复杂逻辑仍然需要昂贵的人工处理。

同时这里也给我提了一个醒,云上的数据库优化 AI 大模型大多是用大厂自己的大模型,他们对于 SQL 优化的能力是云上数据库产品的 AI 能力的关键,他们能不能引入一些优秀的 AI 大模型是否也是要考虑的,可不能自己给自己在 AI 这条模型之路上,给自己创造天花板。 

推荐阅读:给PG鸡蛋里面挑骨头--杭州PostgreSQL生态大会

六、未来展望与行动号召

SCALE 评测体系将持续跟踪各大厂商的最新模型动态和迭代进展,通过公正、透明的评测数据,为社区提供技术选型参考。

即刻探索新一代模型的专业能力!欢迎您登陆 SCALE 官方平台,查看完整的最新榜单和模型对比详情,共同把握 AI 技术的前沿脉搏。

数据截止日期:2025 年 12 月 2 日

查看完整榜单并联系我们提交您的产品进行测评。

https://sql-llm-leaderboard.com/

SCALE:为专业 SQL 任务,选专业 AI 模型。

参考资料

[1] SCALE: https://sql-llm-leaderboard.com/

[2] Gemini 3 Pro: https://deepmind.google/models/gemini/

[3] DeepSeek-V3.2-Exp: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

源码地址:点击下载

以上就是SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布的详细内容,更多请关注其它相关文章!


# 南京单页面seo  # 重构  # 较低  # 榜单  # 是一个  # 而非  # 您的  # 蓝帽seo优势  # 宁津网站建设哪家好  # 我这  # 唐山营销网络推广介绍  # 莱芜网络推广网站建设  # 建设网站的网站首页  # 企业网站建设栏目设计  # 熊掌号会取代seo  # 怎么建设公司网站  # 巩义网站优化推广哪个好  # mysql  # 首次  # 隐式  # 不支持  # 聚合  # sql优化  # 大模型  # google  # ai  # 工具  # 谷歌  # mongodb  # go  # json  # js  # oracle 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: WHEE上线时间介绍  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心  AI与5G的强强联合:唤醒数字时代的无尽潜能  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  热点 | 人工智能黄金时代开启  生活垃圾智能分类机器人社区展“才能”,征求居民意见  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  利好来了,AI再起一波?  北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?  华为HarmonyOS 4将集|成人|工智能大型模型  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  智能机器人正在彻底改变客户服务  Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代  视觉中国宣布推出AI灵感绘图、画面扩展功能  人工智能时代的科幻译者怎么办?“做好翻译工作的高端10%”|文化观察  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  DreamAvatar数字人使用教程  AI进军债券交易,BondGPT来了!  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  为了避免人工智能可能带来的灾难,我们要向核安全学习  Meta将VR头显最低年龄限制从13岁降至10岁  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术  配 3D 机器人头像,谷歌展示全新安卓 LOGO  优化J*a与MySQL合作:分享批处理操作的技巧  AI立法迫在眉睫,如何看对行业影响?  国网辉南供电:无人机空中巡检 全力护航端午佳节  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  人工智能自己玩自己  大疆 Air 3 无人机售价和实物照片曝光  讯飞星火大模型实现升级 助力通用人工智能人才培养  Midjourney创始人:AI应该成为人类思想的延伸 

 2025-12-04

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.