jieba中文分词的使用实例详解


当前第2页 返回上一页

5、改进后的中文分词函数
代码如下(同时又增加了其它常见符号):

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

#中文分词

def textParse(sentence):

    import jieba

    import re

     

    #以下两行过滤出中文及字符串以外的其他符号

    r= re.compile("[\s+\.\!\/_\?【】\-(?:\))(?:\()(?:\[)(?:\])(\:):,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+")

     

    sentence=r.sub('',sentence)

    jieba.load_userdict("userdict.txt");#加载自定义词典

    stoplist={}.fromkeys([line.strip() for line in open("stopkey.txt",'r',encoding= 'utf-8')])#停用词文件是utf8编码 

    seg_list = jieba.cut(sentence)

    seg_list=[word for word in list(seg_list) if word not in stoplist]

    #print ("Default Mode:", ' '.join(seg_list))

    return seg_list

以上就是jieba中文分词的使用实例详解的详细内容,更多文章请关注木庄网络博客!!

返回前面的内容

相关阅读 >>

理解Python的全局变量和局部变量

Python中pillow知识点学习

Python学习日记

Python中迭代器生成器的实例详解

Python闰年判定代码是什么

ubuntu下Python+tornado+supervisor+nginx部署

一篇文章带你学习Python列表

Python数据分析用什么软件

Python基于tcp实现会聊天的小机器人功能

Python实现图片识别功能的示例分享

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...