论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
风控模型算法面试题集结
风控模型算法面试题集结
万万哇
金牌会员
|
2025-3-8 04:38:44
|
显示全部楼层
|
阅读模式
楼主
主题
977
|
帖子
977
|
积分
2931
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
特性处理
1. 特性工程的一样平常步骤什么?什么是特性迭代
特性工程一样平常包含:
数据获取,分析数据的可用性(覆盖率,准确率,获取容易程度)
数据探索,分析数据业务寄义,对特性有一个大致了解,同时进行数据质量校验,包含缺失值、非常值和同等性等;
特性处理,包含数据处理和特性处理两部分。数据处理重要做清洗工作(缺失值、非常值、错误值、数据格式处理等),特性转换即对连续特性、离散特性、时间序列进行转换,常用尺度化、归一化、区间缩放、二值化、哑变量编码等,便于入模;
特性构建,构建与目标变量相干且区分度较好的特性,常用方法有特性交叉、四则运算、业务理解的处理等;
特性筛选,特性维度过高不但会导致模型训练服从低下,特性鲁棒性也不强,要做特性降维,常用方法有过滤法,包装法,嵌入法;
特性工程迭代:
特性提取:根据具体问题分析,从数据中查找可以提出信息的关键数据;
计划特性:可以自动进行特性提取,也可以手动进行特性构建;
特性选择:从多个维度判断特性是否可以放入模型;
盘算模型:盘算模型在改特性上所提拔方准确率;
上线测试:通过在线测试来评估特性是否有效;
2. 时间序列特性、连续特性、离散特性怎么转换
时间序列特性:按时间变量的维度进行离散(年、月、日、时、分),或者与位置变量进行结合衍生出新的特性;
连续特性:表转化、归一化、区间缩放、离散化。离散化常用的方法有卡方分箱、决策时分箱、等频和等距分箱;
离散特性:如果种别不是许多,做哑变量处理;对于无需离散变量用都热编码,有序李淑娜使用顺序编码。如果种别较多,可用均匀数编码;
3. 特性衍生方法有哪些
常用的特性衍生方法包罗:
基于业务理解构造特性,比如电商平台用户的购买和时间关系;
特性交叉;
分解种别特性,如对缺失特性可以分解成是否有这个种别的二值化特性,或者将缺失特性作为一个种别;
重构数值,如单元转换等
特性四则运算,如均匀、最大最小、加减乘除等;
4. 特性筛选的目标和需求
目标:
简化模型,增长模型的可表明性,降低过拟合风险
紧缩模型训练时间
避免维度劫难
需求:
可表明性好,与目标变量在业务上有表明
时间维度上稳定
有较好的覆盖度;
5. 特性筛选方法和各自的优缺点
Filter 过滤法:按照发散性、相干性对各个特性进行评分,设定阈值进行选择;
方法有相干系数、方法(对连续变量)、卡方校验(种别变量)、信息熵、IV。实际过程重要基于相干系数和IV;
优点:算法通用性强,复杂度低,适用于大规模数据集提出不相干变量,可以作为特性预筛选;
缺点:由于算法评价尺度独立于特性学习算法,特性子集在分类准确方面较低;
Wrapper封装法:利用学习算法的性能评价特性子集的好坏,wrapper法需要一个分类器。
方法有完全搜索法、开导式搜索,随机搜索。工作中常用的是开导式搜索,如卡方分布的渐渐逻辑回归进行评选;
优点:相对于filter法能找到分类性能更好的特性子集
缺点:算法复杂度高,当改变学习算法时,需要重新进行特性筛选;
Embedded嵌入法:先使用机器学习算法和模型进行训练,得到各个特性的权值系数,然后按照系数巨细进行筛选。
常用方法包罗基于惩罚性的岭回归、Lasso回归,L1/2正则化,和基于树模型输出的特性紧张性。工作中场景的基于随机丛林、xgboost和lightgbm。
优点:结果好,速度快,模式单调;
缺点:参数设置,以及需要对模型算法原理有较好理解;
6. 如何发现和处理特性缺失值
在风控建模过程中,首先要了解缺失值产生的原因,是数据自己收罗问题照旧用户自己缺少这个属性,以及缺少属性对风险有无影响;
其次,对于缺失率较高的特性,尤其是评分卡模型,大于25%就不发起接纳,在10%以内可用中位数或者随机丛林来填充,区间内的可以思量当做一个特殊种别来处理;
7. 特性非常值发现和处理
非常值的发现可接纳如极差、四分位间距、均差、尺度差等,还可以通过等距方法来检验非常点。,如欧式距离、绝对距离等
对于非常值处理,先判断是否是真正的错误。如果是错误数据,清理掉就行。如果无法判断,则看非常值是否较多,若较多可以接纳单独类处理,如果不做也可不做处理。
8. 如那边理特性不平衡问题
好坏样本比例不平衡,先确定好坏样本的界说;
基于界说实验扩大数据集,比如信贷中拉长时间线;
对数据进行抽样,一种是欠采样,通过镌汰大类样本呢来降低不平衡;另一种是过采样,通过增长小数据样原来降低不平展。实际工作中常用SMOTE方法来实现过采样。
实验用xgboost和lightgbm等对不平衡数据处理结果好的模型。
9. 特性离散化和特性交叉
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
万万哇
金牌会员
这个人很懒什么都没写!
楼主热帖
markdown day 01
Linux系统调用四、lseek()函数详解 ...
Nacos注册中心-----从0开始搭建和使用 ...
ClickHouse(05)ClickHouse数据类型详解 ...
基于CSDN云和docker全家桶的微服务项目 ...
【云原生】Docker 进阶 -- 数据卷使用 ...
应急救灾物资行业标准与规范 ...
100天精通Python(进阶篇)——第39天 ...
读Java性能权威指南(第2版)笔记02_ J ...
谈谈技术能力
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
IOS
linux
开源技术
前端开发
快速回复
返回顶部
返回列表