《呆板学习数学根本》增补资料：形貌性统计

登录 · 发表于 2025-10-21 00:26:46

《呆板学习数学根本》第 6 章先容了数理统计，其紧张内容如下：

就统计学而言，除了上述内容之外，平常还会用到一些形貌性统计的知识。为此，本文增补一些形貌性统计的根本知识。
用样本估计总体分布                                                       [                         1                         ]                                        ^{[1]}             [1]

频率分布表

先将数据从小到大分列，然后将分列后的数据分段，每段中的数据被称为一组，故分段也称为分组。
设样本量                            n                         n             n ，分组履历公式：                            K                   =                   1                   +                   4                   lg                   ⁡                            (                      n                      )                               K=1+4\lg{(n)}             K=1+4lg(n) ，分成                            K                         K             K 组。
然后盘算每组的发生次数和发生频率。
频率分布直方图

直方图在1895年由英国统计学家皮尔逊起首使用。
盘算数据落入各组的频率                                     f                      i                               f_i             fi ，将隔断的端点在直角坐标系横轴标出，用                                     g                      i                            =                                        f                         i                               本段区间长度                               g_i=\frac{f_i}{本段区间长度}             gi=本段区间长度fi 作为纵坐标的高度，就得到了由相毗连长方形构成的图像，即频率分布直方图，简称直方图（histogram）。

使用matplotlib等Python中的数据可视化库，可以或许绘制直方图，请参阅《跟老齐学Python：数据分析》
频率折线图

用 d 1 , ⋯ , d k d_1, \cdots, d_k d1,⋯,dk 体现频率分布直方图中各矩形上边的中点，在直方图的左边延伸出一个分段，其重点用 d 0 d_0 d0 体现；在右边延伸出一个分段，其重点用 d k + 1 d_{k+1} dk+1 体现。将 d 0 , d 1 , ⋯ , d k , d k + 1 d_0,d_1,\cdots,d_k,d_{k+1} d0,d1,⋯,dk,dk+1 用折线链接，得到了频率折线图。频率折线图也反映出数据频率的分布规律。

分析： 在经典统计学中，由于统计本事的限定，统计图的数目有限。假如使用 matplotlib、seaborn等 Python 语言的库，可以绘制出更多的统计图 [ 2 ] ^{[2]} [2]。
众数和中位数

众数和中位数，是两个代表数据特性的统计量。
众数

观测数据中出现次数最多的数是众数（mode），用 M 0 M_0 M0 体现。
假如观测数据中每个数出现的次数都类似，则无众数；如有两个或以上的数出现次数类似，且高出其他数的出现次数，则这几个数都是众数。
众数受数据中极大或极小值的厘革影响较小，出现的频率最高。
在统计学中，将数据中最大值和最小值的差，称为级差。

a = np.array([[6, 8, 3, 0],
[3, 2, 1, 7],
[8, 1, 8, 4],
[5, 3, 0, 5],
[4, 7, 5, 9]])
# 统计数据中的众数
from scipy import stats
stats.mode(a)
# 输出
ModeResult(mode=array([[3, 1, 0, 0]]), count=array([[1, 1, 1, 1]]))

复制代码

中位数

设观测数据已经从小到大分列为 x 1 ≤ x 2 ≤ ⋯ ≤ x n x_1\le x_2\le\cdots\le x_n x1≤x2≤⋯≤xn :

样本量 n n n 为奇数，称中心的数据是中位数（median），记作 M d M_d Md 。
M d = x m , m = n + 1 2 M_d=x_m, ~m=\frac{n+1}{2} Md=xm, m=2n+1
样本量 n n n 为偶数，称中心两个数据的匀称值是中位数：
M d = x m + x m + 1 2 , m = n 2 M_d=\frac{x_m+x_{m+1}}{2}, m=\frac{n}{2} Md=2xm+xm+1,m=2n

a = np.array([[10, 7, 4], [3, 2, 1]])
a
# 输出
array([[10, 7, 4],
[ 3, 2, 1]])
# 计算全部数据的中位数
np.median(a)
# 输出
3.5
# 计算0轴方向的中位数
np.median(a, axis=0)
# 输出
array([6.5, 4.5, 2.5])
# 计算1周方向的中位数
np.median(a, axis=1)
# 输出
array([7., 2.])

复制代码

别的，在Pandas中提供了DataFrame对象的方法describe()，可以或许得到数据的常用统计量，详情参阅参考文献[2]。
参考文献

[1]. 何书元. 数理统计[M]. 北京：高等教诲出书社. 2012.1，第1版
[2]. 齐伟. 跟老齐学Python：数据分析[M]. 北京：电子工业出书社.

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

《呆板学习数学根本》增补资料：形貌性统计

本帖子中包含更多资源

张裕