【机器学习】机器学习工程实战-第3章 数据网络和准备
上一章:第2章 项目开始前3.1 关于数据的问题
3.1.1 数据是否可获得
1、首先思量数据是否存在?
2、若存在,思量是否可获得:物理上、条约上、道德上、成本上
3.1.2 数据是否相称大
判定是否网络了足够数据的一个实用的方法:绘制学习曲线(learningcurve),具体操纵为:不同数量练习样本的学习算法会对应不同的练习得分和验证得分,分别将它们绘制出来。
通过观察学习曲线,会发现模子在到达一定数量的练习样本后,表现趋于平缓。在到达这个练习样本数量后,额外增加样本而受益却递减。
如果学习算法的表现趋于平缓,那么有三种情况:
[*]网络更多数据对练习更好的模子没有资助
[*]包含信息的特征不敷以创建表现更好的模子
[*]选择的学习算法无法使用已有数据练习出足够复杂的模子
3.1.3 数据是否可用
(1)数据质量
信息错误
(2)数据集是否规整
用于机器学习的数据集必须是规整的
(3)是否有缺失值(missing value)
使用数据弥补(data imputation)技能弥补缺失值
(4)神奇数字(magic number)
人们用9999或-1等特别数字标记的缺失值,需要通过使用得当的数据弥补技能替换这些神器数字
(5)重复(duplicate)
重复数据通常会被删除,除非是故意用来办理不平衡问题(imbalanced problem)
(6)数据过期(expired)
如需要练习一个识别打印机异常行为的模子,却使用上一代打印机的丈量效果,将使用过期数据练习出来的模子部署到新一代打印机,就可能会的表现的很差。
(7)数据不完备(incomplete)或现象代表性不敷(unrepresentative)
如自动驾驶汽车系统的行人数据集,如果只有工程师假冒行人,会导致大多数情况下只采集到年轻男性,而儿童、女性和老人的代表性不敷或完全没有。
3.1.4 数据是否可明白
防止数据走漏(data leakage)/目的走漏(target leakage)
如预测房屋交易代价,如果使用房子的属性(睡房数量、位置、建造年份等)练习模子,发现测试集中的表现几乎完善,生产部署后却大多数时候错误。
过细检查发现练习数据中包含了房地产经纪人的佣金,由于佣金取决于售价,模子很容易学会了将这个属性完善地转换成房价。
3.1.5 数据是否可靠
(1)网络程序是否可靠
(2)是否存在标签耽误(delayed)或间接(indirect)特性影响
[*]标签耽误
以客户流失预测(churn prediction)问题为例。
有一个形貌客户的特征向量,用来预测客户是否会在未来6个月后脱离。特征向量代表对用户现在的了解,但标签是在未来指定。在现在和未来之间,很多变乱会影响客户的去留,因此耽误的标签会使数据可靠性降低。
[*]间接特性
以预测网站访问者对某网页是否感爱好为例。
数据集中的“感爱好”/“不感爱好”标签,反映了特定用户是否对该网页感爱好。比方用户按下了“喜欢”按钮,这是直接的爱好指标。但如果用户只点击了链接,这是间接指标,由于有可能存在用户误点的情况。以是如果标签是间接的,则可能导致数据不太可靠。
(3)反馈链路(feedback loop)
3.2 数据的常见问题
3.2.1 高成本
3.2.2 质量差
数据质量有两个部分:原始数据质量、标签质量
原始数据的常见问题:噪声、偏差、预测本领低、样本过时、离群值和走漏
3.2.3 噪声(noise)
数据中的噪声是对样本的损坏。
如图像含糊或不完备,音频配景噪声,民意观察缺失年事、性别属性,等等。
3.2.4 偏差(bias)
数据的偏差是指,与数据所代表的现象不一致。
偏差类型:
(1)选择偏差(selection bias)
(2)自选偏差(self-selection bias)
如练习一个预测成功企业家的模子。
先询问企业家是否成功,然后选取宣称本身成功的企业家那里获得数据。
问题是,真正成功的企业家没时间回答你的问题,而自称成功的人很可能不是真的成功。
(3)遗漏变量偏差(omitted variable bias)
(4)赞助偏差(sponsorship bias)或资助偏差(funding bias)
(5)采样偏差(sampling bias)/分布偏差(distribution shift)
用于练习的样本分布不能反映模子在生产中收到的输入的分布
(6)私见/刻板印象偏差(prejudice/stereotype bias)
(7)系统性值失真(systematic value distortion)
(8)实验者偏差(experimenter bias)
(9)贴标偏差(labeling bias)
避免偏差的方法
(1)选择偏差
可以通过系统地质疑选择特定数据源的原因来避免。
(2)自选偏差
无法完全消除。
预先选择回答者以减少自选偏差。
(3)遗漏变量偏差
很难完全避免。
试着用用署理变量代替被省略的变量。
如要练习一个预测二手车代价的模子。若无法得到车龄,就用当前车主拥有该车的时间来代替。
(4)赞助偏差
通过过细观察数据泉源,特别是泉源全部者提供数据的动机,可以减少赞助偏差。
(5)采样偏差
通过研究生产中数据的各种属性的真实比例,然后在练习数据中保持雷同的比例进行采样,来避免采样偏差。
(6)私见/刻板印象偏差
通过将学习算法暴露在更均匀的样本分布中,减少私见/刻板印象偏差。
(7)系统性值失真偏差
通过多个设备丈量,或者聘请经过练习的人员来比力丈量,或观察设备的输出来缓解。
(8)实验者偏差
通过让多人验证观察中提出的问题来避免。
(9)贴标偏差
3.2.5 预测本领低(low predictive power)
3.2.6 过时的样本
在实际场景中,由于概念漂移(concept drift),模子开始出错。概念漂移是特征和标签之间的统计关系发生了根本性的厘革。
如预测用户是否喜欢网站上的某些内容。随着时间的推移,用户的喜好可能会改变。过去的样本不再反映这些用户的偏好,并开始伤害模子的表现。
3.2.7 离群值
3.2.8 数据走漏/目的走漏
监督学习中的数据走漏是指无意中引入了不该提供的目的信息,这就是所谓的“污染”。
后续待更新
今天看到第三章,发现这本书的翻译不是特别好,多是字面直译过来,乃至有的地方不够通顺。 要求翻译者精通机器学习显然不现实,加上这本书基本都是理论内容,以是后续思量粗读一些。
以后我会只管选择清北等出版社的图书,质量应该会更高。
请在关闭网页之前,使用2秒钟的时间,在脑海中迅速回顾一遍本部分的框架及要点!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]