利用python将pdf输出为txt的实例


当前第2页 返回上一页

读取test.pdf输出为output.txt:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

# -*- coding: utf-8 -*- 

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

from pdfminer.layout import *

from pdfminer.converter import PDFPageAggregator

import os

fp = open('test.pdf', 'rb')

#来创建一个pdf文档分析器

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

document = PDFDocument(parser)

# 检查文件是否允许文本提取

if not document.is_extractable:

 raise PDFTextExtractionNotAllowed

else:

 # 创建一个PDF资源管理器对象来存储共赏资源

 rsrcmgr=PDFResourceManager()

 # 设定参数进行分析

 laparams=LAParams()

 # 创建一个PDF设备对象

 # device=PDFDevice(rsrcmgr)

 device=PDFPageAggregator(rsrcmgr,laparams=laparams)

 # 创建一个PDF解释器对象

 interpreter=PDFPageInterpreter(rsrcmgr,device)

 # 处理每一页

 for page in PDFPage.create_pages(document):

  interpreter.process_page(page)

  # 接受该页面的LTPage对象

  layout=device.get_result()

  for x in layout:

   if(isinstance(x,LTTextBoxHorizontal)):

    with open('output.txt','a') as f:

     f.write(x.get_text().encode('utf-8')+'\n')

相关推荐:

Python 将pdf转成图片的方法


以上就是利用python将pdf输出为txt的实例的详细内容,更多文章请关注木庄网络博客!!

返回前面的内容

相关阅读 >>

Python爬虫学习图文实例

5个常用 Python 标准库

Python可以做什么

Python抽象类有什么用

input函数的用法是什么?

介绍Python爬取网页

Python知识分解析掷骰子游戏

Python使用opencv进行标定

Python脚本是什么

Python3怎么安装库

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...