近日,deepseek正式发布全新ocr系统,使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github:https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩,相较直接处理原始文本,图像化表征显著降低计算开销。在确保97%信息完整保留的前提下,文档体积可压缩至原大小的十分之一。例如,一本百页级pdf经该系统处理后,所需token数量仅为原先的1/10,语言模型即可实现端到端精准解析。
DeepSeek OCR系统由两大核心组件协同构成:
一是图像编码模块 DeepEncoder,参数量达3.8亿,专用于将输入的文档图像解析为高度压缩的视觉token;
二是文本生成模块,基于 Deepseek-3B-MoE 架构微调而来,负责从视觉token中重建原始文字内容与文档结构。
技术层面,系统深度融合了Meta推出的 SAM(Segment Anything Model) 与OpenAI开发的 CLIP 模型:SAM承担细粒度局部区域分割任务,CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元,大幅削减视觉token总量。以一张1024×1024像素图像为例,初始生成4096个token,经压缩后仅剩256个,极大缓解CLIP模块的推理压力。在低分辨率场景下,单图仅需64个视觉token;高分辨率模式下亦不超过400个,而传统OCR方案通常需数千token才能完成同等精度识别。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek OCR不仅支持常规文字识别,还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出,系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值,并自动输出标准Markdown表格。在“深度解析模式”下,金融图表与几何示意图更可被重绘为矢量格式,同时完整保留图注、坐标说明及上下文标注。
基准测试结果表明,DeepSeek OCR在 OmniDocBench 综合评测中表现卓越:当仅使用100个视觉token时,性能已超越GOT-OCR 2.0在256 token下的表现;在800 token预算内,全面领先MinerU 2.0(后者每页平均消耗超6000 token)。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离(Edit Distance)分数,达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式;普通业务报告匹配约100-token配置;而面对排版密集的报纸类多栏文档,则激活“Gundam模式”,上限设为800 token。此外,还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略,灵活兼顾多页文档的压缩效率与识别准确率。
文心智能体平台
百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体
393
查看详情

DeepSeek OCR的训练数据规模极为罕见:总计投入三千万页PDF文档,覆盖近一百种语言。其中包含2500万页真实中英文资料、1000万张合成图表、500万条化学公式样本、以及100万幅几何图形图像。如此海量且高多样性的训练语料,赋予模型强大的跨领域泛化能力与跨语言鲁棒性,不仅能完美复现原始文档布局,输出结果还同步附带图文语义描述与内容摘要。
在当前主流多模态大模型架构中,文本上下文长度限制始终是制约长文档理解的关键瓶颈。DeepSeek另辟蹊径,跳脱传统token计数范式,以视觉token替代文本token作为语言模型的新输入载体,真正实现“边看图、边读文”的一体化感知。对研究人员而言,这相当于为AI配备了一块高性能“外接硬盘”——借助视觉压缩机制,模型的有效上下文长度近乎无界,也预示着未来AI架构或将彻底消融“文本理解”与“图像理解”的传统边界。
该模型一经开源,迅速引发全球技术社区高度关注,相关讨论迅速登上GitHub Trending、Hugging Face热门榜单及多个中文科技平台热搜榜。有开发者实测反馈:“太惊艳了!刚用这个新开源模型把400页PDF转成Markdown,全程不到4分钟!”另有AI从业者感叹:“震撼!中国DeepSeek再次打破天花板——整本《百科全书》竟能浓缩为一张高清图像!” DeepSeek OCR绝非一次简单的OCR工具升级,而是对机器如何感知、组织与利用信息的一次底层范式革新。
以上就是DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%的详细内容,更多请关注其它相关文章!
# 金华seo推广服务价格
# 官网
# 来袭
# 压缩率
# 如何写
# 前提下
# 多个
# 自贡网站建设专业营销团队
# 河北声学实验室网站建设
# 柱状
# seo排名优化最好
# 白酒营销推广模式
# 花生壳网站建设北路
# 安康seo公司选1火星
# 团购推广方案网站设计图
# seo加sem
# 灌装机械推广网站
# deepseek
# 会议纪要
# 开源
# 文档
# 大模
# 金融
# openai
# pdf
# ai
# 工具
# 硬盘
# 编码
# github
# go
# git
# markdown
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
生成式人工智能如何改变云安全的游戏规则
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语
IBM将模拟计算用于人工智能,重塑AI计算
创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会
揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?
不到2S创作AI图像!Snap发布图像生成器SnapFusion
两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务
AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能
警惕!AI或致虚假信息泛滥
第二届光合组织AI解决方案大赛赛果揭晓
用AI技术点亮老照片:Deep Nostalgia带给照片新生动感
一文看懂被英伟达看中的九号机器人移动底盘
《爱康未来之夜嘉宾官宣,携手共赴AI未来》
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
优化系统韧性:故障恢复与监控在RabbitMQ中的应用
小米又拿下国际比赛第一:AI翻译立功
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
从数据中心到发电站:人工智能对能源使用的影响
V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中
微软大牛加入ZOOM,AI人才大战打响
这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
江永:精准施训提升通信无人机应急救援能力
掌阅科技对话式AI应用“阅爱聊”开启内测
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
用AI升级会议体验!思必驰多款会议产品亮相全球智博会!
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
建立元宇宙产业联盟:移动、咪咕、华为、小米等加入
“踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展
微幼科技晨检机器人与人工晨检相比,有何优势
消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术
AI立法迫在眉睫,如何看对行业影响?
人形机器人概念集体爆发,能买吗?
聚焦人工智能大模型、AIGC 徐汇十余场重磅论坛等你来
官宣!爱康AI未来之夜三大亮点提前剧透!
高质量数据推动AI场景化应用快速发展及落地
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请
智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”
科技有狠活|时光修复师 :用AI让昨日重现
速途网络成立“人工智能专家委员会”5位中美博士加盟
2025-12-12
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。