import
import nltk
清理html标签
clean=nltk.clean_html(html)
计算词频
先分词然后计算词频,中文分词用结巴,英文直接split空格分词
import jiebatokens=jieba.cut(text, cut_all=False)#获取词频freq_dist_nltk=nltk.FreqDist(tokens)for k,v in freq_dist_nltk.items():print( str(k) + ': '+ str(v) )#画出分布图freq_dist_nltk.plot(50,cumulative=False)
如果觉得《NPL——nltk》对你有帮助,请点赞、收藏,并留下你的观点哦!