python如何提取PDF文本


本文摘自php中文网,作者(*-*)浩,侵删。

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

1

2

import glob

import os

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

1

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

1

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

阅读剩余部分

相关阅读 >>

Python之dataframe实现excel合并单元格_Python

冒泡排序有哪2种写法,用冒泡排序对10个数进行排列

Python做app用什么工具

用cmd写Python怎么换行

Python中浮点数的原理以及运算详解

Python文件读取操作的详细介绍

Python如何遍历所有数组

Python中socket网络编程的详细介绍(附示例)

Python使用struct处理二进制的方法详解

Python保存数组怎么操作

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...