python如何提取PDF文本(2)-木庄网络博客

2021-10-03 07:24:07 php中文网 Python 百度已收录

pdfs

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

1	`from pdf_extractor import extract_pdf_content`

用这个函数，我们尝试从 pdf 文件列表中的第一篇里，抽取内容，并且把文本保存在 content 变量里。

1	`content = extract_pdf_content(pdfs[0])`

显然，内容抽取并不完美，页眉页脚等信息都混了进来。不过，对于我们的许多文本分析用途来说，这无关紧要。

更多Python相关技术文章，请访问Python教程栏目进行学习！

以上就是python如何提取PDF文本的详细内容，更多文章请关注木庄网络博客！！

相关阅读 >>

更多相关阅读请进入《Python》频道 >>

书籍

Python编程从入门到实践第2版

￥69.8元 人民邮电出版社

python入门书籍，非常畅销，超高好评，python官方公认好书。