《呆板学习数学根本》增补资料:形貌性统计

[复制链接]
发表于 2025-10-21 00:26:46 | 显示全部楼层 |阅读模式
《呆板学习数学根本》第 6 章先容了数理统计,其紧张内容如下:

就统计学而言,除了上述内容之外,平常还会用到一些形貌性统计的知识。为此,本文增补一些形貌性统计的根本知识。
用样本估计总体分布                                                         [                            1                            ]                                           ^{[1]}               [1]

频率分布表

先将数据从小到大分列,然后将分列后的数据分段,每段中的数据被称为一组,故分段也称为分组
设样本量                               n                          n               n ,分组履历公式:                              K                      =                      1                      +                      4                      lg                      ⁡                               (                         n                         )                                  K=1+4\lg{(n)}               K=1+4lg(n) ,分成                               K                          K               K 组。
然后盘算每组的发生次数和发生频率。
频率分布直方图

直方图在1895年由英国统计学家皮尔逊起首使用。
盘算数据落入各组的频率                                        f                         i                                  f_i               fi​ ,将隔断的端点在直角坐标系横轴标出,用                                        g                         i                              =                                         f                            i                                  本段区间长度                                  g_i=\frac{f_i}{本段区间长度}               gi​=本段区间长度fi​​ 作为纵坐标的高度,就得到了由相毗连长方形构成的图像,即频率分布直方图,简称直方图(histogram)。

使用matplotlib等Python中的数据可视化库,可以或许绘制直方图,请参阅《跟老齐学Python:数据分析
频率折线图

用                                        d                         1                              ,                      ⋯                       ,                               d                         k                                  d_1, \cdots, d_k               d1​,⋯,dk​ 体现频率分布直方图中各矩形上边的中点,在直方图的左边延伸出一个分段,其重点用                                        d                         0                                  d_0               d0​ 体现;在右边延伸出一个分段,其重点用                                        d                                   k                            +                            1                                           d_{k+1}               dk+1​ 体现。将                                        d                         0                              ,                               d                         1                              ,                      ⋯                       ,                               d                         k                              ,                               d                                   k                            +                            1                                           d_0,d_1,\cdots,d_k,d_{k+1}               d0​,d1​,⋯,dk​,dk+1​ 用折线链接,得到了频率折线图。频率折线图也反映出数据频率的分布规律。

分析: 在经典统计学中,由于统计本事的限定,统计图的数目有限。假如使用 matplotlib、seaborn等 Python 语言的库,可以绘制出更多的统计图                                                         [                            2                            ]                                           ^{[2]}               [2]。
众数和中位数

众数和中位数,是两个代表数据特性的统计量。
众数

观测数据中出现次数最多的数是众数(mode),用                                        M                         0                                  M_0               M0​ 体现。
假如观测数据中每个数出现的次数都类似,则无众数;如有两个或以上的数出现次数类似,且高出其他数的出现次数,则这几个数都是众数。
众数受数据中极大或极小值的厘革影响较小,出现的频率最高。
在统计学中,将数据中最大值和最小值的差,称为级差
  1. a = np.array([[6, 8, 3, 0],
  2.               [3, 2, 1, 7],
  3.               [8, 1, 8, 4],
  4.               [5, 3, 0, 5],
  5.               [4, 7, 5, 9]])
  6. # 统计数据中的众数
  7. from scipy import stats
  8. stats.mode(a)
  9. # 输出
  10. ModeResult(mode=array([[3, 1, 0, 0]]), count=array([[1, 1, 1, 1]]))
复制代码
中位数

设观测数据已经从小到大分列为                                        x                         1                              ≤                               x                         2                              ≤                      ⋯                      ≤                               x                         n                                  x_1\le x_2\le\cdots\le x_n               x1​≤x2​≤⋯≤xn​ :

  • 样本量                                         n                                  n                     n 为奇数,称中心的数据是中位数(median),记作                                                    M                               d                                            M_d                     Md​ 。
                                                              M                                  d                                          =                                           x                                  m                                          ,                                                               m                               =                                                        n                                     +                                     1                                              2                                                  M_d=x_m, ~m=\frac{n+1}{2}                         Md​=xm​, m=2n+1​
  • 样本量                                         n                                  n                     n 为偶数,称中心两个数据的匀称值是中位数:
                                                              M                                  d                                          =                                                                      x                                        m                                                  +                                                   x                                                       m                                           +                                           1                                                                         2                                          ,                               m                               =                                           n                                  2                                                  M_d=\frac{x_m+x_{m+1}}{2}, m=\frac{n}{2}                         Md​=2xm​+xm+1​​,m=2n​
  1. a = np.array([[10, 7, 4], [3, 2, 1]])
  2. a
  3. # 输出
  4. array([[10,  7,  4],
  5.        [ 3,  2,  1]])
  6. # 计算全部数据的中位数
  7. np.median(a)
  8. # 输出
  9. 3.5
  10. # 计算0轴方向的中位数
  11. np.median(a, axis=0)
  12. # 输出
  13. array([6.5, 4.5, 2.5])
  14. # 计算1周方向的中位数
  15. np.median(a, axis=1)
  16. # 输出
  17. array([7.,  2.])
复制代码
别的,在Pandas中提供了DataFrame对象的方法describe(),可以或许得到数据的常用统计量,详情参阅参考文献[2]。
参考文献

[1]. 何书元. 数理统计[M]. 北京:高等教诲出书社. 2012.1,第1版
[2]. 齐伟. 跟老齐学Python:数据分析[M]. 北京:电子工业出书社.

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表