1 |
|
1 2 3 |
|
经验证。准确无误。
下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。
1 |
|
用这个函数,我们尝试从 pdf 文件列表中的第一篇里,抽取内容,并且把文本保存在 content 变量里。
1 |
|
显然,内容抽取并不完美,页眉页脚等信息都混了进来。不过,对于我们的许多文本分析用途来说,这无关紧要。
更多Python相关技术文章,请访问Python教程栏目进行学习!
以上就是python如何提取PDF文本的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
更多相关阅读请进入《Python》频道 >>

Python编程 从入门到实践 第2版
python入门书籍,非常畅销,超高好评,python官方公认好书。