python如何提取PDF文本


本文摘自php中文网,作者(*-*)浩,侵删。

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

1

2

import glob

import os

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

1

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

1

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

阅读剩余部分

相关阅读 >>

Python中**是什么意思

怎么利用Python输出星座

Python爬虫需要安装什么

Python里int什么意思

Python函数中的可变参数定义方法以及参数的传递方法解析

Python如何实现无限循环

Python如何整段注释

Python怎么求整数n的阶乘?

Python中sympy代数符号运算的介绍

Python画红色五角星的代码是什么

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...