如何从python文件中提取信息?3分钟搞懂Python文本分析和提取


本文摘自php中文网,作者Tomorin,侵删。

单位收集了很多word格式的调查表,领导需要收集表单里的信息,我就把所有调查表放一个文件里,写了个python小程序把所需的信息打印出来,这个小程序就能从Python文本中分析信息并提取信息

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

#coding:utf-8

  

import os

import win32com

from win32com.client import Dispatch, constants

from docx import Document

  

def parse_doc(f):

  """读取doc,返回姓名和行业

  """

  doc = w.Documents.Open( FileName = f )

  t = doc.Tables[0] # 根据文件中的图表选择信息

  name = t.Rows[0].Cells[1].Range.Text 

  situation = t.Rows[0].Cells[5].Range.Text

  people = t.Rows[1].Cells[1].Range.Text

  title = t.Rows[1].Cells[3].Range.Text 

  print name, situation, people,title

  doc.Close()

  

def parse_docx(f):

  """读取docx,返回姓名和行业

  """

  d = Document(f)

  t = d.tables[0]

  name = t.cell(0,1).text

  situation = t.cell(0,8).text

  people = t.cell(1,2).text

  title = t.cell(1,8).text

  print name, situation, people,title

  

  

if __name__ == "__main__":

    

  w = win32com.client.Dispatch('Word.Application')

    

  # 遍历文件

  PATH = "H:\work\\aaa" # windows文件路径

  doc_files = os.listdir(PATH)

  for doc in doc_files:

    if os.path.splitext(doc)[1] == '.docx':

      try:

        parse_docx(PATH+'\\'+doc)

      except Exception as e:

        print e

    elif os.path.splitext(doc)[1] == '.doc':

      try:

        parse_doc(PATH+'\\'+doc)

      except Exception as e:

        print e

下载安装win32com

阅读剩余部分

相关阅读 >>

pycharm怎么安装

Python基础教程项目三之万能的xml

如何通过Python批量处理套娃式文件夹

Python中的并发处理之asyncio包使用的详解_Python

Python中常见数据库有哪些

Python笔试题之设计“跳一跳”小游戏计分器

详解Python利用flask sqlalchemy实现分页

Python需要配置环境吗

Python访问限制私有还是公有的介绍(附示例)

基于rabbitmq rpc实现的主机管理

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...