python词云生成库-wordcloud

星球的眼睛  金牌会员 | 2024-6-29 13:52:23 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 509|帖子 509|积分 1527

WordCloud 是一个用于生成词云的 Python 库,它可以根据提供的文本数据创建出雅观的视觉化图像,其中文本的巨细和频率成比例。同时也提供了丰富的绘制功能, 可以结合 matplotlib 库进行复杂的操作
关键的方法就是WordCloud方法
  一、模块介绍

导入模块
  1. from wordcloud import WordCloud
复制代码
该类的定义如下:
  1. def __init__(self, font_path=None, width=400, height=200, margin=2,
  2.              ranks_only=None, prefer_horizontal=.9, mask=None, scale=1,
  3.              color_func=None, max_words=200, min_font_size=4,
  4.              stopwords=None, random_state=None, background_color='black',
  5.              max_font_size=None, font_step=1, mode="RGB",
  6.              relative_scaling='auto', regexp=None, collocations=True,
  7.              colormap=None, normalize_plurals=True, contour_width=0,
  8.              contour_color='black', repeat=False,
  9.              include_numbers=False, min_word_length=0, collocation_threshold=30):
  10.     ... ...
复制代码
其中各个参数和属性的说明如下:
  1. font_path: 字符串, 词云中字体格式文件的路径
  2. 用于字体的字体路径(OTF或TTF)。默认为Linux机器上的DroidSansMono路径。如果你在其他操作系统上或没有这个字体,你需要调整这个路径。
  3. width: 整数,默认=400, 画布的宽度。
  4. height: 整数,默认=200, 画布的高度。
  5. prefer_horizontal: 浮点数,默认=0.90
  6. 尝试水平适应相对于垂直适应的比例。如果 prefer_horizontal < 1,算法会在单词不适应时尝试旋转单词。(目前没有内置方法仅获取垂直单词。)
  7. mask: 数组或None,默认=None
  8. 如果不为None,给出在何处绘制单词的二进制掩模。如果mask不为None,将忽略width和height,并使用mask的形状。所有白色(#FF或#FFFFFF)条目将被视为“屏蔽”,而其他条目则可以自由绘制。
  9. contour_width: 浮点数,默认=0
  10. 如果mask不为None且contour_width > 0,绘制掩模轮廓。
  11. contour_color: 颜色值,默认="black", 掩模轮廓颜色。
  12. scale: 浮点数,默认=1
  13. 计算与绘制之间的缩放。对于大的词云图像,使用scale而不是更大的画布尺寸会显著更快,但可能导致单词的拟合更粗糙。
  14. min_font_size: 整数,默认=4, 使用的最小字体大小。当这个大小没有更多空间时停止。
  15. font_step: 整数,默认=1, 字体的步长。font_step > 1可能会加速计算,但可能给出较差的拟合。
  16. max_words: 数量,默认=200, 最大单词数。
  17. stopwords: 字符串集合或None
  18. 将被消除的单词。如果为None,将使用内置的STOPWORDS列表。如果使用generate_from_frequencies,则忽略。
  19. background_color: 颜色值,默认="black", 词云图像的背景颜色。
  20. max_font_size: 整数或None,默认=None
  21. 最大单词的最大字体大小。如果为None,则使用图像的高度。
  22. mode: 字符串,默认="RGB"
  23. 当mode为"RGBA"且background_color为None时,将生成透明背景。
  24. relative_scaling: 浮点数,默认='auto'
  25. 单词相对频率对字体大小的重要性。如果relative_scaling=0,只考虑单词排名。如果relative_scaling=1,频率是两倍的单词将有两倍的大小。如果你想同时考虑单词频率和不仅仅它们的排名,relative_scaling大约0.5通常看起来不错。如果为'auto',则除非repeat为真,否则设置为0.5,此时设置为0。版本更新:: 2.0默认现在是'auto'。
  26. color_func: 可调用,默认=None
  27. 有参数word, font_size, position, orientation, font_path, random_state的可调用函数,为每个单词返回一个PIL颜色。覆盖"colormap"。有关指定matplotlib色谱的信息,请参见colormap。要创建单色的词云,使用
  28. color_func=lambda *args, **kwargs: "white"。单色也可以使用RGB代码指定。例如,
  29. color_func=lambda *args, **kwargs: (255,0,0)设置颜色为红色。
  30. regexp: 字符串或None(可选)
  31. 在process_text中分割输入文本为标记的正则表达式。如果指定为None,则使用r"\w[\w']+"。如果使用generate_from_frequencies,则忽略。
  32. collocations: 布尔,默认=True
  33. 是否包括两个单词的搭配(二元组)。如果使用generate_from_frequencies,则忽略。
  34. colormap: 字符串或matplotlib色谱,默认="viridis"
  35. 从每个单词随机抽取颜色的matplotlib色谱。如果指定了"color_func",则忽略。
  36. normalize_plurals: 布尔,默认=True
  37. 是否去除单词末尾的's'。如果为True,一个单词以's'结尾和不以's'结尾都出现时,去掉以's'结尾的单词并将它的计数加到没有's'结尾的版本上——除非单词以'ss'结尾。如果使用generate_from_frequencies,则忽略。
  38. repeat: 布尔,默认=False
  39. 是否重复单词和短语直到达到max_words或min_font_size。
  40. include_numbers: 布尔,默认=False, 是否将数字作为短语包含进来。
  41. min_word_length: 整数,默认=0, 单词必须有的最少字母数才能被包含。
  42. collocation_threshold: 整数,默认=30
  43. 大二元组必须具有高于此参数的Dunning似然性搭配分数才能被计为大二元组。默认值30是任意的。
  44. 属性
  45. words_: 字符串到浮点数的字典, 关联频率的单词令牌。2.0后words_ 是一个字典
  46. layout_: 元组列表((字符串, 浮点数), 整数, (整数, 整数), 整数, 颜色)
  47. 编码拟合的词云。对于每个单词,它编码字符串、规范化频率、字体大小、位置、方向和颜色。频率由最常出现的单词归一化。颜色格式为'rgb(R, G, B)'。
复制代码
二、WordCloud常用的方法

1. generate(self, text)

接收一个字符串作为输入,计算文本中各单词的频率,并生成相应的词云。这是最基础也是最常用的方法之一。
  1. from wordcloud import WordCloud
  2. import matplotlib.pyplot as plt# 示例文本text = "This is a simple example showing how to generate a word cloud using the generate method. Generate method uses the input text directly."# 创建WordCloud对象wordcloud = WordCloud(width=800, height=800, max_words=100, background_color='white').generate(text)# 显示词云plt.figure(figsize=(8, 8), facecolor=None)plt.imshow(wordcloud)plt.axis("off")plt.tight_layout(pad=0)plt.show()
复制代码

2. generate_from_frequencies(frequencies)

直接接收一个字典,其中键是单词,值是该单词的频率,用来生成词云。这实用于已经计算好词频的情况。
  1. from wordcloud import WordCloud
  2. import matplotlib.pyplot as plt# 示例文本dic = {'This': 120, 'example': 90, 'showing': 80, 'word': 70, 'cloud': 60, 'Generate': 50, 'method': 40, 'text': 30, 'input': 20, 'directly': 10}# 创建WordCloud对象wordcloud = WordCloud(width=800, height=800, max_words=100, background_color='white').generate_from_frequencies(dic)# 显示词云plt.figure(figsize=(8, 8), facecolor=None)plt.imshow(wordcloud)plt.axis("off")plt.tight_layout(pad=0)plt.show()
复制代码

3. fit_words(frequencies)

这个方法接收一个字典,其中键是单词,值是对应的频率,然后根据这些频率生成词云。类似于generate_from_frequencies
  1. from wordcloud import WordCloud
  2. import matplotlib.pyplot as plt# 示例文本dic = {'This': 120, 'example': 90, 'showing': 80, 'word': 70, 'cloud': 60, 'Generate': 50, 'method': 40, 'text': 30, 'input': 20, 'directly': 10}# 创建WordCloud对象wordcloud = WordCloud(width=800, height=800, max_words=100, background_color='white').fit_words(dic)# 显示词云plt.figure(figsize=(8, 8), facecolor=None)plt.imshow(wordcloud)plt.axis("off")plt.tight_layout(pad=0)plt.show()
复制代码

4. generate_from_text(text)

接收一个字符串作为输入,计算文本中各单词的频率,并生成相应的词云。类似于generate。
  1. from wordcloud import WordCloud
  2. import matplotlib.pyplot as plt# 示例文本text = "This is a simple example showing how to generate a word cloud using the generate method. Generate method uses the input text directly."# 创建WordCloud对象wordcloud = WordCloud(width=800, height=800, max_words=100, background_color='white').generate_from_text(text)# 显示词云plt.figure(figsize=(8, 8), facecolor=None)plt.imshow(wordcloud)plt.axis("off")plt.tight_layout(pad=0)plt.show()
复制代码

三、进阶技巧

1. 设置蒙版

蒙版设置, 设置蒙版之后, 词云的形状就会显示为设置的蒙版形状
  1. from wordcloud import WordCloud
  2. , ImageColorGeneratorimport matplotlib.pyplot as pltimport numpy as npfrom PIL import Imagemask_image = np.array(Image.open('./static/img.png'))# 示例文本text = "This is a simple example showing how to generate a word cloud using the generate method. Generate method uses the input text directly."# 创建WordCloud对象wordcloud = WordCloud(width=800, height=800, mask=mask_image, max_words=100, background_color='white')wordcloud.generate_from_text(text)# 显示词云plt.figure(figsize=(8, 8), facecolor=None)plt.imshow(wordcloud)plt.axis("off")plt.tight_layout(pad=0)plt.show()
复制代码

2. 设置过滤词

对于一些不希望出现的词, 可以通过设置stopword过滤, 实现方法有两种

  • 在切词阶段, 将过滤词剔除, 过滤词要求是一个聚集{}
  • 在生成词云阶段, 使用stopword参数添加过滤词数组, 留意, 此时假如通过generate_from_frequencies方法生成, 此参数则忽略
    方式一:
  1. stop_words = {'?', ',', '有', '其', '非常', '的', '为', '所', ':', '和', '”', "'", '\\u3000', '乎', '?', '这', '不', '在', '比', '“', '"', '而', '很', '被', '我', '那'}
  2. datas = [... ...]  # 词云数据
  3. cloud_data = []
  4. for data in datas:
  5.     qdatas = jieba.lcut(data)
  6.     qdata_filter = [word for word in qdatas if word not in excludes]
  7.     cloud_data.extend(qdata_filter)
  8. wordcloud = WordCloud(
  9.     font_path='./static/msyh.ttc',
  10.     background_color='white',
  11.     colormap='magma',
  12.     max_font_size=40,
  13.     random_state=42,
  14.     max_words=300,
  15.     # 宽
  16.     width=1000,
  17.     # 高
  18.     height=880,
  19.     mask = mask_image
  20. ).generate(' '.join(cloud_data))
复制代码
方式二:
  1. stop_words = {'?', ',', '有', '其', '非常', '的', '为', '所', ':', '和', '”', "'", '\\u3000', '乎', '?', '这', '不', '在', '比', '“', '"', '而', '很', '被', '我', '那'}
  2. datas = [... ...]  # 词云数据
  3. wordcloud = WordCloud(
  4.     font_path='./static/msyh.ttc',
  5.     background_color='white',
  6.     colormap='magma',
  7.     max_font_size=40,
  8.     random_state=42,
  9.     max_words=300,
  10.     # 宽
  11.     width=1000,
  12.     # 高
  13.     height=880,
  14.     mask = mask_image,
  15.     -- 设置过滤词
  16.     stopwords=stop_words
  17. ).generate(datas)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

星球的眼睛

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表