jieba中文分词的使用实例详解

2021-10-08 14:13:55 php中文网 Python 百度已收录

当前第2页返回上一页

5、改进后的中文分词函数
代码如下（同时又增加了其它常见符号）：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

#中文分词
def textParse(sentence):
    import jieba
    import re
     
    #以下两行过滤出中文及字符串以外的其他符号
    r= re.compile("[\s+\.\!\/_\?【】\-(?:\))(?:\()(?:\[)(?:\])(\:)：,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+")
     
    sentence=r.sub('',sentence)
    jieba.load_userdict("userdict.txt");#加载自定义词典
    stoplist={}.fromkeys([line.strip() for line in open("stopkey.txt",'r',encoding= 'utf-8')])#停用词文件是utf8编码  
    seg_list = jieba.cut(sentence)
    seg_list=[word for word in list(seg_list) if word not in stoplist]
    #print ("Default Mode:", ' '.join(seg_list))
    return seg_list

以上就是jieba中文分词的使用实例详解的详细内容，更多文章请关注木庄网络博客！！

返回前面的内容

相关阅读 >>

理解Python的全局变量和局部变量

Python中pillow知识点学习

Python学习日记

Python中迭代器生成器的实例详解

Python闰年判定代码是什么

ubuntu下Python+tornado+supervisor+nginx部署

一篇文章带你学习Python列表

Python数据分析用什么软件

Python基于tcp实现会聊天的小机器人功能

Python实现图片识别功能的示例分享

更多相关阅读请进入《Python》频道 >>

Python编程从入门到实践第2版

书籍

Python编程从入门到实践第2版

￥69.8元 人民邮电出版社

python入门书籍，非常畅销，超高好评，python官方公认好书。

转载请注明出处：木庄网络博客 » jieba中文分词的使用实例详解

标签：

木庄网络博客

感谢您的支持，我会继续努力的!

扫码支持

扫码打赏，您说多少就多少

支付宝

打开支付宝扫一扫，即可进行扫码打赏哦

分享从这里开始，精彩与您同在

相关推荐

评论

管理员已关闭评论功能...

欢迎访问木庄网络博客
可复制：代码框内的文字。
方法：Ctrl+C。