在上述代码中,模拟了两个模子的性能指标,并使用ttest_ind函数举行独立样本t查验。
通过输出的T统计量和P值,可以判断两个模子的性能是否存在显着差别。
这里增补说明一下T统计量和P值的含义。 t 统计量是衡量两个样本均值差别相对于样本数据变异性的统计量,它表示两个样本均值之间的差别与样本均值变异性的比值。 t 统计量绝对值越大,表示两个样本均值之间的差别相对于数据的变异性越大,越有可能认为这种差别是显着的,而不是由随机因素引起的。
而p 值是在假设查验中,在原假设建立的条件下,观察到当前统计量(如 t 统计量)或更极端情况的概率。 p 值用于判断是否拒绝原假设:
p 值 < 显着性程度(如 0.05):拒绝原假设,认为两个模子的性能存在显着差别。此时,t 统计量的绝对值较大,表明两个模子的性能差别相对于数据的变异性是显着的。
p 值 ≥ 显着性程度(如 0.05):不拒绝原假设,认为两个模子的性能无显着差别。此时,t 统计量的绝对值较小,表明两个模子的性能差别可能是由随机因素引起的。
2.2. 交叉验证t查验
交叉验证 t 查验联合了交叉验证和** t 查验**的优点,能够在多次交叉验证的基础上,对模子性能举行更可靠的比力。
from sklearn.model_selection import KFold, cross_val_score
from scipy.stats import ttest_ind
# 假设有两个模型
from sklearn.linear_model import LogisticRegression