强大而又神秘的OCR光学字符识别技术
PDFelement2020年06月10日 19:59
浏览61评论0

PDFelement用户大多都知道我们的产品有个“独特”的功能——OCR(光学字符识别),今天,我们将为大家详细介绍一下OCR技术。

什么是OCR?

OCR(Optical Character Recognition,光学字符识别)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。换句话说,就是把图片中文字转换为可编辑的文本。

对文本资料的图像文件进行分析识别处理

影响OCR识别准确率的因素

虽然市场上有各种各样的OCR技术,但是每种OCR技术的识别准确率都不太相同,到底是什么原因影响了OCR识别的准确率呢?

1、字符的明暗对比度

OCR光学字符识别是通过字符的明暗模式来确认字符的形状(来源:百度百科),所以字符的的明暗对比是否清晰就非常重要。“白纸黑字”的明暗对比度是最高的,识别的效果也是最好的。如果纸张和文字的颜色相近,就会造成混淆和错误。

“白纸黑字”的明暗对比度是最高的

2、字符识别数据库

图形的形状处理完毕,计算机将图形转化为二进制数值,这些数值传输到OCR识别的数据库中,程序再把数据转换为可编辑的计算机文本。如果数据库中数据不齐全,程序就会出现识别不了或者识别错误的现象。

这款软件目前可以识别23种语言,可满足用户绝大部分的图文识别的需求。

这款软件目前可以识别23种语言

OCR图文识别在PDF文档中的应用

一般来说,PDF文档有两种。一种是文字文档转换过来的或者直接创建的PDF格式文档,另外一种就是图片或者扫描件转换过来的PDF文档。文字文档转换过来的或者直接创建的PDF文档是可以直接编辑的,如注释、修改文字、调整图片等等,都可以直接操作。

但是图片或者扫描件转换过来的PDF文档就不可以直接编辑了,必须得执行OCR图文识别之后才能编辑或者注释。

如何在软件中使用OCR功能?

注册用户是可以免费试用该软件的全部功能的,包括OCR图文识别功能。标准版用户没有该功能的使用权限,专业版用户可以使用该功能。

第一次使用OCR功能需要额外下载OCR的程序,下载完毕后自动完成安装,即可使用OCR功能。

点击菜单栏中的“转换”—“OCR”,选择文档的语言和需要转换的页码,执行OCR之后,这些页面上的文本即可转换为可编辑的文本。

本文转载自万兴PDF专家微信公众号(微信号:PDFelement),其作品版权归属该官方微信公众号所有。

文章标签:PDFelementOCR万兴PDF专家
发表评论
您的评论审核通过后才能显示

暂无数据