用antiword提取 .doc 的内容
我们这里使用了 antiword 开源软件,来提取word2003以前版本的内容,安装同样非常简单:
1 |
|
查看帮助:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
antiword直接将word内容输出到了console中:
1 2 3 4 5 |
|
同样在node.js用child_process调用此命令即可。
解析提取.docx 的内容
对于 docx 文档来说,因基本身就是一个zip文件,只需要在node.js先将其解压,再解析 text.docx\word\document.xml 文件即可。
总结
以上就是如何在Linux系统中利用node.js提取Word及PDF文本内容的案例介绍的详细内容,更多文章请关注木庄网络博客!
相关阅读 >>
更多相关阅读请进入《javascript》频道 >>