风控模型算法面试题集结

打印 上一主题 下一主题

主题 977|帖子 977|积分 2931

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
特性处理

1. 特性工程的一样平常步骤什么?什么是特性迭代
特性工程一样平常包含:


  • 数据获取,分析数据的可用性(覆盖率,准确率,获取容易程度)
  • 数据探索,分析数据业务寄义,对特性有一个大致了解,同时进行数据质量校验,包含缺失值、非常值和同等性等;
  • 特性处理,包含数据处理和特性处理两部分。数据处理重要做清洗工作(缺失值、非常值、错误值、数据格式处理等),特性转换即对连续特性、离散特性、时间序列进行转换,常用尺度化、归一化、区间缩放、二值化、哑变量编码等,便于入模;
  • 特性构建,构建与目标变量相干且区分度较好的特性,常用方法有特性交叉、四则运算、业务理解的处理等;
  • 特性筛选,特性维度过高不但会导致模型训练服从低下,特性鲁棒性也不强,要做特性降维,常用方法有过滤法,包装法,嵌入法;
特性工程迭代:


  • 特性提取:根据具体问题分析,从数据中查找可以提出信息的关键数据;
  • 计划特性:可以自动进行特性提取,也可以手动进行特性构建;
  • 特性选择:从多个维度判断特性是否可以放入模型;
  • 盘算模型:盘算模型在改特性上所提拔方准确率;
  • 上线测试:通过在线测试来评估特性是否有效;
2. 时间序列特性、连续特性、离散特性怎么转换


  • 时间序列特性:按时间变量的维度进行离散(年、月、日、时、分),或者与位置变量进行结合衍生出新的特性;
  • 连续特性:表转化、归一化、区间缩放、离散化。离散化常用的方法有卡方分箱、决策时分箱、等频和等距分箱;
  • 离散特性:如果种别不是许多,做哑变量处理;对于无需离散变量用都热编码,有序李淑娜使用顺序编码。如果种别较多,可用均匀数编码;
3. 特性衍生方法有哪些
常用的特性衍生方法包罗:


  • 基于业务理解构造特性,比如电商平台用户的购买和时间关系;
  • 特性交叉;
  • 分解种别特性,如对缺失特性可以分解成是否有这个种别的二值化特性,或者将缺失特性作为一个种别;
  • 重构数值,如单元转换等
  • 特性四则运算,如均匀、最大最小、加减乘除等;
4. 特性筛选的目标和需求
目标:


  • 简化模型,增长模型的可表明性,降低过拟合风险
  • 紧缩模型训练时间
  • 避免维度劫难
需求:


  • 可表明性好,与目标变量在业务上有表明
  • 时间维度上稳定
  • 有较好的覆盖度;
5. 特性筛选方法和各自的优缺点
Filter 过滤法:按照发散性、相干性对各个特性进行评分,设定阈值进行选择;


  • 方法有相干系数、方法(对连续变量)、卡方校验(种别变量)、信息熵、IV。实际过程重要基于相干系数和IV;
  • 优点:算法通用性强,复杂度低,适用于大规模数据集提出不相干变量,可以作为特性预筛选;
  • 缺点:由于算法评价尺度独立于特性学习算法,特性子集在分类准确方面较低;
Wrapper封装法:利用学习算法的性能评价特性子集的好坏,wrapper法需要一个分类器。


  • 方法有完全搜索法、开导式搜索,随机搜索。工作中常用的是开导式搜索,如卡方分布的渐渐逻辑回归进行评选;
  • 优点:相对于filter法能找到分类性能更好的特性子集
  • 缺点:算法复杂度高,当改变学习算法时,需要重新进行特性筛选;
Embedded嵌入法:先使用机器学习算法和模型进行训练,得到各个特性的权值系数,然后按照系数巨细进行筛选。


  • 常用方法包罗基于惩罚性的岭回归、Lasso回归,L1/2正则化,和基于树模型输出的特性紧张性。工作中场景的基于随机丛林、xgboost和lightgbm。
  • 优点:结果好,速度快,模式单调;
  • 缺点:参数设置,以及需要对模型算法原理有较好理解;
6. 如何发现和处理特性缺失值
在风控建模过程中,首先要了解缺失值产生的原因,是数据自己收罗问题照旧用户自己缺少这个属性,以及缺少属性对风险有无影响;
其次,对于缺失率较高的特性,尤其是评分卡模型,大于25%就不发起接纳,在10%以内可用中位数或者随机丛林来填充,区间内的可以思量当做一个特殊种别来处理;
7. 特性非常值发现和处理
非常值的发现可接纳如极差、四分位间距、均差、尺度差等,还可以通过等距方法来检验非常点。,如欧式距离、绝对距离等
对于非常值处理,先判断是否是真正的错误。如果是错误数据,清理掉就行。如果无法判断,则看非常值是否较多,若较多可以接纳单独类处理,如果不做也可不做处理。
8. 如那边理特性不平衡问题


  • 好坏样本比例不平衡,先确定好坏样本的界说;
  • 基于界说实验扩大数据集,比如信贷中拉长时间线;
  • 对数据进行抽样,一种是欠采样,通过镌汰大类样本呢来降低不平衡;另一种是过采样,通过增长小数据样原来降低不平展。实际工作中常用SMOTE方法来实现过采样。
  • 实验用xgboost和lightgbm等对不平衡数据处理结果好的模型。
9. 特性离散化和特性交叉


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万万哇

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表