交叉验证法堪称数据集划分的“进阶利器”,尤其在数据量有限的环境下大显身手。
它将数据集划分为 K 个巨细相近、互不重叠的子集。
接下来,模型练习与评估过程会进行 K 轮,在每一轮中,依次将此中一个子集作为测试集,其余 K-1 个子集归并作为练习集。
如此一来,每个子集都有机遇担任测试集的角色,最终综合 K 轮的评估效果,得到更为稳定、可靠的模型性能指标。
这种方法充实利用了有限的数据资源,通过多次练习与评估,有效降低了模型评估效果的方差,加强了效果的可信度。
使用scikit-learn的代码示例如下:
from sklearn.model_selection import KFold
from sklearn.datasets import load_digits
from sklearn.ensemble import RandomForestClassifier