Wordcloud词云应用

WordCloud对象

创建对象

from wordcloud import WordCloud

#创建一个wordcloud对象
word = WordCloud()

相关属性设置

font_path：string	字体路径，需要展现什么字体就把该字体路径+后缀名写上，如：font_path = '黑体.ttf'
width : int	输出的画布宽度，默认为400像素
height:int	输出的画布高度，默认为200像素
prefer_horizontal : float	词语水平方向排版出现的频率，默认 0.9 （所以词语垂直方向排版出现频率为 0.1 ）
background_color : color value (default=”black”)	背景颜色，如background_color='white',背景颜色为白色。

prefer_horizontal : float	词语水平方向排版出现的频率，默认 0.9 （所以词语垂直方向排版出现频率为 0.1 ）
mask : nd-array or None (default=None)	如果参数为空，则使用二维遮罩绘制词云。如果 mask 非空，设置的宽高值将被忽略，遮罩形状被 mask 取代。除全白（#FFFFFF）的部分将不会绘制，其余部分会用于绘制词云。如：bg_pic = imread('读取一张图片.png')，背景图片的画布一定要设置为白色（#FFFFFF），然后显示的形状为不是白色的其他颜色。可以用ps工具将自己要显示的形状复制到一个纯白色的画布上再保存，就ok了。
scale : float (default=1)	按照比例进行放大画布，如设置为1.5，则长和宽都是原来画布的1.5倍。
min_font_size : int (default=4)	显示的最小的字体大小
font_step : int (default=1)	字体步长，如果步长大于1，会加快运算但是可能导致结果出现较大的误差。
max_words:number (default=200)	要显示的词的最大个数

stopwords : set of strings or None	设置需要屏蔽的词，如果为空，则使用内置的STOPWORDS
max_font_size : int or None (default=None)	显示的最大的字体大小
mode : string (default=”RGB”)	当参数为“RGBA”并且background_color不为空时，背景为透明。
relative_scaling : float (default=.5)	词频和字体大小的关联性
color_func : callable, default=None	生成新颜色的函数，如果为空，则使用 self.color_func
regexp : string or None (optional)	使用正则表达式分隔输入的文本
collocations : bool, default=True	是否包括两个词的搭配
colormap : string or matplotlib colormap, default=”viridis”	给每个单词随机分配颜色，若指定color_func，则忽略该方法。

相关方法

fit_words(frequencies) string:int	根据词频生成词云
generate(text)	根据文本生成词云
generate_from_frequencies(frequencies[, ...])	根据词频生成词云
generate_from_text(text)	根据文本生成词云
process_text(text)	将长文本分词并去除屏蔽词（此处指英语，中文分词还是需要自己用别的库先行实现，使用上面的 fit_words(frequencies) ）
recolor([random_state, color_func, colormap])	对现有输出重新着色。重新上色会比重新生成整个词云快很多。
to_array()	转化为 numpy array
to_file(filename)	输出到文件

process_text

根据词云对象提供的regexp，以及不绘入词云的词集合，将文本进行切割。

text：str待分割文本。

返回值： dict(str, int)

generate_from_text

从文本生成词云。

text：str待分割文本。

返回值：词云对象

fit_words

根据词频生成词云

frequencies：dict(str, int)。待生成词云的单词-词频字典。

generate_from_frequencies

根据词频生成词云

frequencies：dict(str, int)。待生成词云的单词-词频字典。
max_font_size=None：int。该值会替换wordcloud.WordCloud(**kwargs)的max_font_size值。(建议忽略)

返回值都为一个词云对象

探索任务

任务一

将计算机网络.txt中的文本内容进行词云显示，注意设置词云的宽度、高度以及字体，字体需要使用中文字体进行内容显示

计算机网络.txt

from wordcloud import WordCloud

f = open("计算机网络.txt","r",encoding = "utf-8")
word = WordCloud(font_path = "STSONG.TTF",width = 600,height = 600)

word.generate(f.read())

word.to_file("hello.png")

任务二

将计算机网络.txt中的文本内容进行分词，根据分词的频率来制作词云，让显示内容更加精确

可以尝试使用jieba来进行分词操作

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt

f = open("计算机网络.txt","r",encoding = "utf-8")
word = WordCloud(font_path = "STSONG.TTF",width = 600,height = 600)

invalid = ['的','他们','因为','所以']
#统计词频
re = {}
re_ = jieba.lcut(f.read())
for i in re_:
    #需要去掉空格以及无效词
    if i != '\n' and i not in invalid:
        if i not in re:
            re[i] = 1
        else:
            re[i] += 1
#制作词云
word.fit_words(re)
f.close()

可以尝试使用matplotlib来进行图片显示

#利用matplotlib直接进行词云显示，word为词云对象
plt.imshow(word)
plt.axis('off')
plt.show()

任务三

将西游记.txt中的文本内容进行分词，并进行词云显示，让词云的图像以孙悟空的样子进行显示

西游记.txt

b.jpg

注意：尝试使用mask参数来创建词云对象

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

f = open("西游记.txt","r",encoding = "utf-8")

#创建图片对象，并转换成ndarray数组
mask = np.array(Image.open("b.jpg"))

#将数组对象用于mask参数当中
word = WordCloud(font_path = "STSONG.TTF",width = 500,height = 500,mask = mask)

#添加无用词以及符号
invalid = ['的','他们','因为','所以','道','我',"\"",",","。","这",'又']