python如何提取PDF文本


本文摘自php中文网,作者(*-*)浩,侵删。

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)

1

2

import glob

import os

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

1

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

1

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

阅读剩余部分

相关阅读 >>

Python如何用ip代理

ubuntu能卸载Python

Python中subprocess类与常量的详细介绍

Python的numpy数组怎么合并

Python中import用法(代码示例)

vscode下好用的Python插件及配置_Python

Python中复数怎么表示

Python里百分号什么意思

Python针对excel表格的操作

Python中数组是集合吗

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...