Python基于wordcloud及jieba实现中国地图词云图

Johnthegreat 2024-07-01 17:07:07编程技术
354

热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力。下面这段代码是制作热词图的,用到了以下技术:

jieba,把文本分词

wordcloud,制作热图

chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容

imageio,提取图片的形状

其他:自动识别文件编码,自动识别txt文件,图片文件名与txt文件一致,使用的是四大名著的文本(自行百度),部分中国地图

上代码:

import os
import jieba
import wordcloud
import chardet
import imageio
 
directory = "D:\\"
mask = imageio.imread(r"D:\map.jpg") # 用于最后图像图形
 
directory_lists = os.scandir(directory)
for directory_list in directory_lists:
 
  if directory_list.is_dir() or directory_list.path.split('.')[-1] != "txt":
    continue
 
  with open(directory_list.path, 'rb') as fd:
    coding = chardet.detect(fd.read()[:1000])['encoding']
    if coding.upper() == 'GB2312' or coding == 'GBK':
      coding = 'GB18030'
  file = open(directory_list.path, 'r', encoding=coding)
  text = file.read()
  file.close()
  jieba_text = ' '.join(jieba.lcut(text))
 
  w = wordcloud.WordCloud(height=800, width=1600, font_path='msyh.ttc', background_color='white', stopwords={'Page'}, mask=mask)
  w.generate(jieba_text)
  w.to_file('{}.png'.format(directory_list.path.split('.')[0]))

输出:

水浒传的如下

西游记的如下

仔细看输出的内容,还是挺有意思的,哈哈哈。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持站长工具网。

Python wordcloud jieba 词云图
THE END
ZhanShen
把烦恼扔进夕阳里,和星星一起沉沦。

相关推荐

Pycharm解释器报错:Python packaging tools not found的几种解决办法
在使用PyCharm进行Python开发时,有时会遇到“Python packaging tools not found”的报错信息。这个错误通常发生在尝试安装或管理Python包时,PyCharm无法找到必要的打包工具...
2025-05-09 编程技术
213

基于Python+tkinter打造高颜值软件卸载工具代码详解
本文为大家介绍一款基于Python和Tkinter开发的软件卸载工具——PyGeek Uninstaller。这款工具不仅拥有简洁美观的用户界面,还具备强大的功能,能够轻松实现软件的查找、卸载和...
2025-05-09 编程技术
224

Python提示"int object is not iterable"的原因及解决方法
在Python编程中,当看到错误提示 TypeError: 'int' object is not iterable 时,意味着代码试图迭代一个整数(int 类型)对象,但整数本身不可迭代。本文ZHANID工具...
2025-05-08 编程技术
247

Python实现excel批量加密示例代码详解
在处理企业敏感数据或个人隐私文件时,对Excel文件进行加密是保障信息安全的重要手段。Python凭借其丰富的第三方库,可轻松实现Excel文件的批量加密。本文ZHANID工具网将详细...
2025-05-08 编程技术
239

Python 字典(Dictionary)使用方法及示例代码详解
字典(Dictionary)是Python中最常用的数据结构之一,它以**键值对(Key-Value)**的形式存储数据,具有高效的查询、插入和删除操作。本文将系统讲解字典的核心用法,结合代码...
2025-05-07 编程技术
259

python面试题之read、readline和readlines的区别详解
当python进行文件的读取会遇到三个不同的函数,它们分别是read(),readline(),和readlines(),下面这篇文章主要给大家介绍了关于python面试题之read、readline和readlines区别的...
2025-05-06 编程技术
238