微博舆情数据分析(一)pandas + matplotlib 作图

打印 上一主题 下一主题

主题 658|帖子 658|积分 1974

这篇文章使用的数据基于博文 微博爬虫
重要涉及的技术是 pandas + matplotlib ,是常见的python的数据分析作图方法
1 统计代码天生excel

使用pandas天生excel数据
  1. def init_data():
  2.     df = pd.read_sql_query("SELECT * FROM tb_weibo", cnn)
  3.     print('初始化数据完毕..')
  4.     # 分割 topics 字段
  5.     df['topics'] = df['topics'].str.split(',')
  6.     # 扁平化 topics 字段
  7.     df_exploded = df.explode('topics')
  8.     # 统计 attitudes_count、comments_count、reposts_count 的和值
  9.     summary_df = df_exploded.groupby('topics').agg({
  10.         'attitudes_count': 'sum',
  11.         'comments_count': 'sum',
  12.         'reposts_count': 'sum',
  13.         'keywords': 'first',  # 展示对应的 keywords 字段
  14.         'label': 'count'  # 统计对应行数,取名为 total
  15.     }).reset_index().rename(columns={'label': 'total'})
  16.     # 统计负面文章的数量(label 等于 '消极' 的数量)
  17.     negative_count_df = df_exploded[df_exploded['label'] == '消极'].groupby('topics').size().reset_index(
  18.         name='native_count')
  19.     # 统计用户的个数(去重)
  20.     user_count_df = df_exploded.groupby('topics')['user_id'].nunique().reset_index(name='user_count')
  21.     # 合并所有统计结果
  22.     result_df = summary_df.merge(negative_count_df, on='topics', how='left').merge(user_count_df, on='topics',
  23.                                                                                    how='left')
  24.     # 替换 NaN 值为 0(如果有的话)
  25.     result_df.fillna(0, inplace=True)
  26.     # 根据 total 进行倒序排列
  27.     result_df = result_df.sort_values(by=['total'], ascending=False)
  28.     # 将结果保存为 Excel 文件
  29.     result_df.to_excel('topic.xlsx', index=False)
  30.     print('数据处理完毕,生成 topic.xlsx 文件')
复制代码
2 天生分析图

使用matplotlib天生柱状图和饼图
  1. # 读取处理后的数据
  2.     def analyze_chart1():
  3.     # 读取处理后的数据
  4.     result_df = pd.read_excel('topic.xlsx')
  5.     # 确保 topics 列是字符串类型并处理 NaN 值
  6.     result_df['topics'] = result_df['topics'].astype(str).fillna('未知主题')
  7.     # 取前20个主题
  8.     top_20_df = result_df.head(20)
  9.     # 设置中文字体,确保能够显示中文字符
  10.     matplotlib.rcParams['font.family'] = 'SimHei'  # 使用黑体
  11.     matplotlib.rcParams['axes.unicode_minus'] = False  # 解决负号 '-' 显示为方块的问题
  12.     # 1. 柱状图:分析各个关键词的文章条数 total 列
  13.     plt.figure(figsize=(12, 6))
  14.     plt.bar(top_20_df['topics'], top_20_df['total'], color='skyblue')
  15.     plt.xlabel('主题')
  16.     plt.ylabel('文章条数')
  17.     plt.title('各个关键词的文章条数(前20)')
  18.     plt.xticks(rotation=45, ha='right')  # 旋转 x 轴标签
  19.     plt.tight_layout()
  20.     plt.savefig('bar_chart_total.png')  # 保存图表
  21.     plt.show()  # 显示图表
  22.     # 2. 饼图:分析负面舆情 native_count 和 total
  23.     sizes = [result_df['native_count'].sum(), result_df['total'].sum() - result_df['native_count'].sum()]
  24.     labels = ['负面舆情', '其他舆情']
  25.     plt.figure(figsize=(8, 8))
  26.     plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140, colors=['tomato', 'lightgreen'])
  27.     plt.title('负面舆情与其他舆情占比')
  28.     plt.axis('equal')  # 使饼图为圆形
  29.     plt.savefig('pie_chart_native_count.png')  # 保存图表
  30.     plt.show()  # 显示图表
复制代码
3 执行结果

执行代码:
  1. if __name__ == '__main__':
  2.     init_data()
  3.     analyze_chart1()
复制代码
天生的excel:

天生的分析图:
柱状图,我们使用到了蓝色的柱形,表示每个主题下的微博文章的数量的分列,只列出了前20的。

饼图,我们分析了负面的微博文章的比例,显示为红色,其他舆情(积极和中性)占97.8%。

4 小结

以上图形分析的是整体的数据情况,更多的时候我们希望分析的是某一个话题大概某一个关键词的舆情状况,以是必要添加查询参数,下一篇文章我们拓展更多的图形,并且添加关键词参数。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

tsx81428

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表