风控模型算法面试题集结
特性处理1. 特性工程的一样平常步骤什么?什么是特性迭代
特性工程一样平常包含:
[*]数据获取,分析数据的可用性(覆盖率,准确率,获取容易程度)
[*]数据探索,分析数据业务寄义,对特性有一个大致了解,同时进行数据质量校验,包含缺失值、非常值和同等性等;
[*]特性处理,包含数据处理和特性处理两部分。数据处理重要做清洗工作(缺失值、非常值、错误值、数据格式处理等),特性转换即对连续特性、离散特性、时间序列进行转换,常用尺度化、归一化、区间缩放、二值化、哑变量编码等,便于入模;
[*]特性构建,构建与目标变量相干且区分度较好的特性,常用方法有特性交叉、四则运算、业务理解的处理等;
[*]特性筛选,特性维度过高不但会导致模型训练服从低下,特性鲁棒性也不强,要做特性降维,常用方法有过滤法,包装法,嵌入法;
特性工程迭代:
[*]特性提取:根据具体问题分析,从数据中查找可以提出信息的关键数据;
[*]计划特性:可以自动进行特性提取,也可以手动进行特性构建;
[*]特性选择:从多个维度判断特性是否可以放入模型;
[*]盘算模型:盘算模型在改特性上所提拔方准确率;
[*]上线测试:通过在线测试来评估特性是否有效;
2. 时间序列特性、连续特性、离散特性怎么转换
[*]时间序列特性:按时间变量的维度进行离散(年、月、日、时、分),或者与位置变量进行结合衍生出新的特性;
[*]连续特性:表转化、归一化、区间缩放、离散化。离散化常用的方法有卡方分箱、决策时分箱、等频和等距分箱;
[*]离散特性:如果种别不是许多,做哑变量处理;对于无需离散变量用都热编码,有序李淑娜使用顺序编码。如果种别较多,可用均匀数编码;
3. 特性衍生方法有哪些
常用的特性衍生方法包罗:
[*]基于业务理解构造特性,比如电商平台用户的购买和时间关系;
[*]特性交叉;
[*]分解种别特性,如对缺失特性可以分解成是否有这个种别的二值化特性,或者将缺失特性作为一个种别;
[*]重构数值,如单元转换等
[*]特性四则运算,如均匀、最大最小、加减乘除等;
4. 特性筛选的目标和需求
目标:
[*]简化模型,增长模型的可表明性,降低过拟合风险
[*]紧缩模型训练时间
[*]避免维度劫难
需求:
[*]可表明性好,与目标变量在业务上有表明
[*]时间维度上稳定
[*]有较好的覆盖度;
5. 特性筛选方法和各自的优缺点
Filter 过滤法:按照发散性、相干性对各个特性进行评分,设定阈值进行选择;
[*]方法有相干系数、方法(对连续变量)、卡方校验(种别变量)、信息熵、IV。实际过程重要基于相干系数和IV;
[*]优点:算法通用性强,复杂度低,适用于大规模数据集提出不相干变量,可以作为特性预筛选;
[*]缺点:由于算法评价尺度独立于特性学习算法,特性子集在分类准确方面较低;
Wrapper封装法:利用学习算法的性能评价特性子集的好坏,wrapper法需要一个分类器。
[*]方法有完全搜索法、开导式搜索,随机搜索。工作中常用的是开导式搜索,如卡方分布的渐渐逻辑回归进行评选;
[*]优点:相对于filter法能找到分类性能更好的特性子集
[*]缺点:算法复杂度高,当改变学习算法时,需要重新进行特性筛选;
Embedded嵌入法:先使用机器学习算法和模型进行训练,得到各个特性的权值系数,然后按照系数巨细进行筛选。
[*]常用方法包罗基于惩罚性的岭回归、Lasso回归,L1/2正则化,和基于树模型输出的特性紧张性。工作中场景的基于随机丛林、xgboost和lightgbm。
[*]优点:结果好,速度快,模式单调;
[*]缺点:参数设置,以及需要对模型算法原理有较好理解;
6. 如何发现和处理特性缺失值
在风控建模过程中,首先要了解缺失值产生的原因,是数据自己收罗问题照旧用户自己缺少这个属性,以及缺少属性对风险有无影响;
其次,对于缺失率较高的特性,尤其是评分卡模型,大于25%就不发起接纳,在10%以内可用中位数或者随机丛林来填充,区间内的可以思量当做一个特殊种别来处理;
7. 特性非常值发现和处理
非常值的发现可接纳如极差、四分位间距、均差、尺度差等,还可以通过等距方法来检验非常点。,如欧式距离、绝对距离等
对于非常值处理,先判断是否是真正的错误。如果是错误数据,清理掉就行。如果无法判断,则看非常值是否较多,若较多可以接纳单独类处理,如果不做也可不做处理。
8. 如那边理特性不平衡问题
[*]好坏样本比例不平衡,先确定好坏样本的界说;
[*]基于界说实验扩大数据集,比如信贷中拉长时间线;
[*]对数据进行抽样,一种是欠采样,通过镌汰大类样本呢来降低不平衡;另一种是过采样,通过增长小数据样原来降低不平展。实际工作中常用SMOTE方法来实现过采样。
[*]实验用xgboost和lightgbm等对不平衡数据处理结果好的模型。
9. 特性离散化和特性交叉
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]