腾讯混元OCR模型宣布开源:参数量1B 支持14种小语种翻译
11月25日,腾讯混元于11月25日推出开源OCR模型HunyuanOCR,该模型参数量为1B,基于混元原生多模态架构构建,在多项OCR应用评测中取得当前最优效果。

该模型采用端到端训练推理范式,通过单次前向推理即可完成多项任务,相比传统级联方案更具效率优势。其架构由原生分辨率视频编码器、自适应视觉适配器与轻量化语言模型三部分组成。
在性能方面,HunyuanOCR在复杂文档解析评测OmniDocBench中获得94.1分,超过谷歌Gemini3-pro等模型;在涵盖文档、街景、手写等九大场景的测试集上,其文字检测与识别能力领先同类开源及商业模型。同时,该模型支持14种小语种翻译,并在ICDAR2025文档翻译比赛中获得小模型赛道冠军。
目前该模型已应用于票据字段抽取、视频字幕识别及拍照翻译等场景,并正式对外开放源代码。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1024程序员节京东开放“零帧起手”数字人技术
- 内置24000转/分钟风扇!红魔11 Pro图赏
- W47单品销量,小米17 Pro Max真牛,同档国产全没上榜
- 红魔11 Air证件照公布:骁龙8至尊版、7000mAh电池
- 贝尔金发布70W氮化镓三口快充头,售316元
- 英特尔Nova Lake曝光:旗舰52核怪兽,性能核IPC涨15%
- 一张图看懂智驾"安全公开课"嘉宾精彩观点
- 灵隐寺免门票首日入园名额已约满
- 黄河壶口瀑布现“彩虹横卧”景观
- 两个“1980” 苏翊鸣强势夺金
- 男子花1年定制2米高可通话摩托罗拉
- 长沙连续17年获中国最具幸福感城市
- 刘强东:未来机器人会完成所有工作
- 300元滑雪服被冻哭的年轻人焊身上了
- 退休老人不抢鸡蛋抢起了船票
- 大脑“断崖式衰老”的3个年龄
- 老君山景区拒绝用无人机取代挑山工
- 解读智己LS9,标配520线激光雷达+Thor芯片,究竟有啥不同?
- 联想提出RNL技术,通过多维感知等解决AI训练中的难题
- 曝特斯拉曾拆解多款中国电动汽车