python如何提取PDF文本


本文摘自php中文网,作者(*-*)浩,侵删。

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

1

2

import glob

import os

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

1

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

1

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

阅读剩余部分

相关阅读 >>

Python控制excel实现自动化办公

Python入门必须知道的11个知识点_Python

Python要安装什么软件

Python装饰器的深入浅出

Python实现购物车程序

Python初学用什么工具

Python end用法是什么?

初学者Python能用代码做什么

Python可变参数*args和**kwargs用法实例小结

Python上手快吗

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...