博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计及词云制作
阅读量:5276 次
发布时间:2019-06-14

本文共 598 字,大约阅读时间需要 1 分钟。

中文分词

  1. 下载一中文长篇小说,并转换成UTF-8编码。
  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
  3. **排除一些无意义词、合并同一词。
  4. **使用wordcloud库绘制一个词云。
import jiebatxt="E://novels.txt"book=open(txt,"r",encoding='utf-8').read()excepts={'前言','第一卷'}ls=[]words=jieba.lcut(book)counts={}for i in words:    ls.append(i)    if len(i)==1:        continue    else:        counts[i]=counts.get(i,0)+1for i in excepts:    del(counts[i])items=list(counts.items())items.sort(key=lambda x:x[1],reverse=True)print('出现频率最高的词组前十:')for j in range(10):    i , count=items[j]    print("{:<10}{}".format(i,count))

  

 

转载于:https://www.cnblogs.com/amzinghui/p/7591675.html

你可能感兴趣的文章
[洛谷P1738]洛谷的文件夹
查看>>
ubuntu server设置时区和更新时间
查看>>
【京东咚咚架构演进】-- 好文收藏
查看>>
【HTML】网页中如何让DIV在网页滚动到特定位置时出现
查看>>
文件序列化
查看>>
jQuery之end()和pushStack()
查看>>
Bootstrap--响应式导航条布局
查看>>
Learning Python 009 dict(字典)和 set
查看>>
JavaScript中随着鼠标拖拽而移动的块
查看>>
HDU 1021 一道水题
查看>>
The operation couldn’t be completed. (LaunchServicesError error 0.)
查看>>
php每天一题:strlen()与mb_strlen()的作用分别是什么
查看>>
工作中收集JSCRIPT代码之(下拉框篇)
查看>>
《转载》POI导出excel日期格式
查看>>
code异常处理
查看>>
git - 搭建最简单的git server
查看>>
会话控制
查看>>
推荐一款UI设计软件Balsamiq Mockups
查看>>
Linux crontab 命令格式与详细例子
查看>>
百度地图Api进阶教程-地图鼠标左右键操作实例和鼠标样式6.html
查看>>