风控模型算法面试题集结

万万哇 · 2025-3-8 04:38:44

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

特性处理

1. 特性工程的一样平常步骤什么？什么是特性迭代
特性工程一样平常包含：

数据获取，分析数据的可用性（覆盖率，准确率，获取容易程度）
数据探索，分析数据业务寄义，对特性有一个大致了解，同时进行数据质量校验，包含缺失值、非常值和同等性等；
特性处理，包含数据处理和特性处理两部分。数据处理重要做清洗工作（缺失值、非常值、错误值、数据格式处理等），特性转换即对连续特性、离散特性、时间序列进行转换，常用尺度化、归一化、区间缩放、二值化、哑变量编码等，便于入模；
特性构建，构建与目标变量相干且区分度较好的特性，常用方法有特性交叉、四则运算、业务理解的处理等；
特性筛选，特性维度过高不但会导致模型训练服从低下，特性鲁棒性也不强，要做特性降维，常用方法有过滤法，包装法，嵌入法；

特性工程迭代：

特性提取：根据具体问题分析，从数据中查找可以提出信息的关键数据；
计划特性：可以自动进行特性提取，也可以手动进行特性构建；
特性选择：从多个维度判断特性是否可以放入模型；
盘算模型：盘算模型在改特性上所提拔方准确率；
上线测试：通过在线测试来评估特性是否有效；

2. 时间序列特性、连续特性、离散特性怎么转换

时间序列特性：按时间变量的维度进行离散（年、月、日、时、分），或者与位置变量进行结合衍生出新的特性；
连续特性：表转化、归一化、区间缩放、离散化。离散化常用的方法有卡方分箱、决策时分箱、等频和等距分箱；
离散特性：如果种别不是许多，做哑变量处理；对于无需离散变量用都热编码，有序李淑娜使用顺序编码。如果种别较多，可用均匀数编码；

3. 特性衍生方法有哪些
常用的特性衍生方法包罗：

基于业务理解构造特性，比如电商平台用户的购买和时间关系；
特性交叉；
分解种别特性，如对缺失特性可以分解成是否有这个种别的二值化特性，或者将缺失特性作为一个种别；
重构数值，如单元转换等
特性四则运算，如均匀、最大最小、加减乘除等；

4. 特性筛选的目标和需求
目标：

简化模型，增长模型的可表明性，降低过拟合风险
紧缩模型训练时间
避免维度劫难

需求：

可表明性好，与目标变量在业务上有表明
时间维度上稳定
有较好的覆盖度；

5. 特性筛选方法和各自的优缺点
Filter 过滤法：按照发散性、相干性对各个特性进行评分，设定阈值进行选择；

方法有相干系数、方法（对连续变量）、卡方校验（种别变量）、信息熵、IV。实际过程重要基于相干系数和IV；
优点：算法通用性强，复杂度低，适用于大规模数据集提出不相干变量，可以作为特性预筛选；
缺点：由于算法评价尺度独立于特性学习算法，特性子集在分类准确方面较低；

Wrapper封装法：利用学习算法的性能评价特性子集的好坏，wrapper法需要一个分类器。

方法有完全搜索法、开导式搜索，随机搜索。工作中常用的是开导式搜索，如卡方分布的渐渐逻辑回归进行评选；
优点：相对于filter法能找到分类性能更好的特性子集
缺点：算法复杂度高，当改变学习算法时，需要重新进行特性筛选；

Embedded嵌入法：先使用机器学习算法和模型进行训练，得到各个特性的权值系数，然后按照系数巨细进行筛选。

常用方法包罗基于惩罚性的岭回归、Lasso回归，L1/2正则化，和基于树模型输出的特性紧张性。工作中场景的基于随机丛林、xgboost和lightgbm。
优点：结果好，速度快，模式单调；
缺点：参数设置，以及需要对模型算法原理有较好理解；

6. 如何发现和处理特性缺失值
在风控建模过程中，首先要了解缺失值产生的原因，是数据自己收罗问题照旧用户自己缺少这个属性，以及缺少属性对风险有无影响；
其次，对于缺失率较高的特性，尤其是评分卡模型，大于25%就不发起接纳，在10%以内可用中位数或者随机丛林来填充，区间内的可以思量当做一个特殊种别来处理；
7. 特性非常值发现和处理
非常值的发现可接纳如极差、四分位间距、均差、尺度差等，还可以通过等距方法来检验非常点。，如欧式距离、绝对距离等
对于非常值处理，先判断是否是真正的错误。如果是错误数据，清理掉就行。如果无法判断，则看非常值是否较多，若较多可以接纳单独类处理，如果不做也可不做处理。
8. 如那边理特性不平衡问题

好坏样本比例不平衡，先确定好坏样本的界说；
基于界说实验扩大数据集，比如信贷中拉长时间线；
对数据进行抽样，一种是欠采样，通过镌汰大类样本呢来降低不平衡；另一种是过采样，通过增长小数据样原来降低不平展。实际工作中常用SMOTE方法来实现过采样。
实验用xgboost和lightgbm等对不平衡数据处理结果好的模型。

9. 特性离散化和特性交叉

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

风控模型算法面试题集结

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块