如何提取pdf中的文字
  • 发表时间:2019-07-29 11:26

很多人在编辑pdf文件时遇到过无法复制pdf中的文字而头疼不已。通常出现pdf无法复制文字的情况,除了加密的pdf文档(已加密的pdf怎么解密)外,那就可能是pdf文件中图片上的文字了(如扫描仪扫描出来的)。如何提取pdf中的文字呢?在此分享下小编的小心得,应用ocr中文识别技术来提取文件,希望能帮到有需要的朋友们。
pdf文字提取软件,下载地址:pdf文字识别软件(从pdf中提取文字)
pdf文件中的文字存在两种可能性:其一,文字型pdf,可能是以计算机字符代码的形式被包裹在文件中;其二,图像型pdf,可能只是一个页面图像中的像素组成的线条,没有字符代码信息。
第一种文字型pdf比较简单,可以采用格式转换的方式直接转换pdf文件为文本。打开pdf文字识别软件,执行“文件”-“打开图像...”导入pdf文件,然后执行“输出”-“pdf文件转换为txt文件”(或pdf文件转换为rtf文件)。

弹出“pdf转换为txt”对话框,选择转换的页面,还有生成文件的目录,点击“确定”。即可生成以源文件一样名称的txt文本文件了。


如下图所示,pdf成功转换为txt文本。

第二种图像型pdf,有的pdf都是扫描图片,这个就不能复制文字了,可以采用ocr识别的方式,将pdf文件转换为可编辑文档。这也是本文主要讲的pdf文字识别方法。 还是打开pdf文字提取软件,执行“文件”-“打开图像...”导入pdf文件。

接下来,点击一下工具栏上的“ocr文字识别软件,教你如何识别图片中的文字并提取为可编辑的文本恢复鼠标”按钮,再在右下方的图片栏中,圈选需要识别的文字。然后执行“识别”-“开始识别...”。如下图所示。

这样,软件立即能识别出对应的文字来,自己可以检查一遍有没有个别因字体模糊而识别失误的地方(一般软件不确定的地方会将识别的文字标为红色的),如有也可以手工更正的。OK,如果正确无误了,就可以导出文本了,执行“输出”-“到指定格式文件”。