如何在Linux系统中利用node.js提取Word及PDF文本内容的案例介绍


本文摘自PHP中文网,作者黄舟,侵删。

这篇文章主要给大家介绍了关于Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容,文中给出了详细的示例代码供大家参考学习,需要的朋友们下面跟着小编来一起看看吧。

前言

想要做全文搜索引擎,则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。

但Word文档的情况则会复杂一些。

提取PDF文本内容

XPDF是一个免费开源的软件,用于显示PDF文件,并可将pdf转换成文字图片等,同样支持Windows版。在Debian Linux上安装非常简单:

1

apt-get install xpdf

我们这里只使用pdftotext这个功能,直接输入可查看帮助:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

root@raspberrypi:/var/www# pdftotext

pdftotext version 0.26.5

Copyright 2005-2014 The Poppler Developers - http://poppler.freedesktop.org

Copyright 1996-2011 Glyph & Cog, LLC

Usage: pdftotext [options] <PDF-file> [<text-file>]

 -f <int>   : first page to convert

 -l <int>   : last page to convert

 -r <fp>   : resolution, in DPI (default is 72)

 -x <int>   : x-coordinate of the crop area top left corner

 -y <int>   : y-coordinate of the crop area top left corner

 -W <int>   : width of crop area in pixels (default is 0)

 -H <int>   : height of crop area in pixels (default is 0)

 -layout   : maintain original physical layout

 -fixed <fp>  : assume fixed-pitch (or tabular) text

 -raw    : keep strings in content stream order

 -htmlmeta   : generate a simple HTML file, including the meta information

 -enc <string>  : output text encoding name

 -listenc   : list available encodings

 -eol <string>  : output end-of-line convention (unix, dos, or mac)

 -nopgbrk   : don't insert page breaks between pages

 -bbox    : output bounding box for each word and page size to html. Sets -htmlmeta

 -opw <string>  : owner password (for encrypted files)

 -upw <string>  : user password (for encrypted files)

 -q    : don't print any messages or errors

 -v    : print copyright and version info

 -h    : print usage information

 -help    : print usage information

 --help   : print usage information

 -?    : print usage information

测试一下:

1

2

3

root@raspberrypi:/var/www# pdftotext onceai.pdf onceai.txt

root@raspberrypi:/var/www# cat onceai.txt 产品介绍 顽石智能科技(上海)有限公司

....

然后在node.js中使用 child_process直接调用此命令即可,pdftotext会将内容输出以文本文件中,可能需要多一些操作。具体代码略。

阅读剩余部分

相关阅读 >>

linux chown是什么意思?

linux标准错误的是什么?

在linux上搭建svn服务器方法教程

linux编辑器介绍

linux 如何一键安装 php 环境

在linux系统下进行大文件的切割和合并

lnmp搭建zabbix运维监控系统

如何在linux中查找文件创建时间(crtime)

linux不能ping通网关和其他ip段的地址

linux如何修改文件名?

更多相关阅读请进入《javascript》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...