python如何提取PDF文本-木庄网络博客

2021-10-03 07:24:07 php中文网 Python 百度已收录

本文摘自php中文网，作者(*-*)浩，侵删。

本文为你展示，如何用Python把许多PDF文件的文本内容批量提取出来.

首先，我们读入一些模块，以进行文件操作。（推荐学习：Python视频教程）

1 2	`import` `glob` `import os`

演示目录下，有两个文件夹，分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

1	`pdf_path =` `"pdf/"`

我们希望获得所有 pdf 文件的路径。用glob，一条命令就能完成这个功能。

1	`pdfs =` `glob.glob("{}/*.pdf".format(pdf_path))`

看看我们获得的 pdf 文件路径是否正确。

相关阅读 >>

更多相关阅读请进入《Python》频道 >>

书籍

Python编程从入门到实践第2版

￥69.8元 人民邮电出版社

python入门书籍，非常畅销，超高好评，python官方公认好书。