如何从python文件中提取信息?3分钟搞懂Python文本分析和提取


本文摘自php中文网,作者Tomorin,侵删。

单位收集了很多word格式的调查表,领导需要收集表单里的信息,我就把所有调查表放一个文件里,写了个python小程序把所需的信息打印出来,这个小程序就能从Python文本中分析信息并提取信息

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

#coding:utf-8

  

import os

import win32com

from win32com.client import Dispatch, constants

from docx import Document

  

def parse_doc(f):

  """读取doc,返回姓名和行业

  """

  doc = w.Documents.Open( FileName = f )

  t = doc.Tables[0] # 根据文件中的图表选择信息

  name = t.Rows[0].Cells[1].Range.Text 

  situation = t.Rows[0].Cells[5].Range.Text

  people = t.Rows[1].Cells[1].Range.Text

  title = t.Rows[1].Cells[3].Range.Text 

  print name, situation, people,title

  doc.Close()

  

def parse_docx(f):

  """读取docx,返回姓名和行业

  """

  d = Document(f)

  t = d.tables[0]

  name = t.cell(0,1).text

  situation = t.cell(0,8).text

  people = t.cell(1,2).text

  title = t.cell(1,8).text

  print name, situation, people,title

  

  

if __name__ == "__main__":

    

  w = win32com.client.Dispatch('Word.Application')

    

  # 遍历文件

  PATH = "H:\work\\aaa" # windows文件路径

  doc_files = os.listdir(PATH)

  for doc in doc_files:

    if os.path.splitext(doc)[1] == '.docx':

      try:

        parse_docx(PATH+'\\'+doc)

      except Exception as e:

        print e

    elif os.path.splitext(doc)[1] == '.doc':

      try:

        parse_doc(PATH+'\\'+doc)

      except Exception as e:

        print e

下载安装win32com

阅读剩余部分

相关阅读 >>

关于Python 下划线使用场景

如何利用Python合并文本

Python对多属性的重复数据去重

Python之spider

Python基础学习需要掌握哪些知识

使用Python创建员工信息表的实例代码

Python如何逆序输出数组

Python3 判断列表是一个空列表的方法

Python网络爬虫能干什么

使用Python如何操作pdf

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...