ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【matplotlib 实战】--箱型图 [打印本页]

作者: 曂沅仴駦    时间: 2023-11-24 19:46
标题: 【matplotlib 实战】--箱型图
箱型图(Box Plot),也称为盒须图或盒式图,1977年由美国著名统计学家约翰·图基(John Tukey)发明。
是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。
它能显示出一组数据的最大值、最小值、中位数及上下四分位数。
箱子的顶端和底端,分别代表上下四分位数。
箱子中间的是中位数线,它将箱子一分为二。从箱子延伸出去的线条展现出了上下四分位数以外的数据,由于这两根延伸出去的线像是胡须,因此箱形图也被称为盒须图。
箱形图最大的优势是,它以一种简单的方式,概括出一个或多个数值变量的分布,同时又不会占据太多空间。
1. 主要元素

它主要由以下五个元素组成:

2. 适用的场景

箱型图适用于以下分析场景:
3. 不适用的场景

箱型图不适用于以下分析场景:
4. 分析实战

本次通过箱型图分析我国三大产业对GDP的贡献情况。
4.1. 数据来源

数据来自国家统计局公开的历年数据,整理好的文件从下面的地址下载:
https://databook.top/nation/A02
使用的是其中的 A0201.csv 文件(国内生产总值)
  1. fp = "d:/share/data/A0201.csv"
  2. df = pd.read_csv(fp)
  3. df
复制代码

4.2. 数据清理

过滤出三大产业在2013年~2022年的增加值数据。
  1. data = df[df["zb"].isin(["A020103",
  2.                          "A020104",
  3.                          "A020105"])].copy()
  4. data = data[data["sj"] > 2012]
  5. data
复制代码
其中,A020103,A020104,A020105 分别是三大产业的指标编号。
4.3. 分析结果可视化

通过箱型图展示三大产业的增加值情况:
  1. fig = plt.figure()
  2. ax = fig.add_axes([0.1, 0.1, 1, 1])
  3. graph = ax.boxplot(
  4.     [
  5.         data[data["zb"] == "A020103"].loc[:, "value"],
  6.         data[data["zb"] == "A020104"].loc[:, "value"],
  7.         data[data["zb"] == "A020105"].loc[:, "value"],
  8.     ],
  9.     vert=True,
  10.     patch_artist=True,
  11.     labels=["第一产业", "第二产业", "第三产业"]
  12. )
  13. ax.set_title("2013~2022 三大产业对GDP增加值(亿元)")
  14. colors = ['pink', 'lightblue', 'lightgreen']
  15. for patch, color in zip(graph['boxes'], colors):
  16.     patch.set_facecolor(color)
  17. plt.show()
复制代码

从图中可以看出,近10年来,第一产业的增加值明显低于其他两个产业。
第二第三产业的上下限的值相差比较大,说明增长或者下降比较明显(看了数据,是增长明显)。
第一产业的中位数(红色的横线)偏下半部分,说明多数的年份增加值比较低
第二产业的中位数(红色的横线)偏上半部分,说明多数的年份增加值比较高

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4