Kaggler日志--Day7

打印 上一主题 下一主题

主题 772|帖子 772|积分 2316

进度24/12/17

昨日复盘:
尝试自己爬取了两个学校的就业信息数据,比力简朴但是顺通了爬虫流程
看别人的代码:AQX的。
今日进度:
分析明白昨天代码的过程,统计问题
过程明白

EDA部分

对于不同变量类型判别的举例说明:

初步划分数值型和种别型时:


  • 离散型数值变量
  1. OverallQual: Rates the overall material and finish of the house
  2.        10        Very Excellent
  3.        9        Excellent
  4.        8        Very Good
  5.        7        Good
  6.        6        Above Average
  7.        5        Average
  8.        4        Below Average
  9.        3        Fair
  10.        2        Poor
  11.        1        Very Poor
  12. # 个人感觉这就相当于已经进行顺序编码的类型变量!!!
复制代码
填补空缺时划分顺序特性、一般种别特性和数值特性时:
对于不同类型变量利用的可视化图表及作用的明白

ked、skewed等概念
多变量分析要点及可视化方式

多重共线性multicollinearity
箱线图与离群点、skewed

空缺值填补策略

分组时分组依据怎么选?
特性工程

CV的应用

这里的交叉验证CV貌似只是在网格化搜索优化超参数模型的过程中利用,并没有用在终极的模型评估中,没太明白这样的用意,CV不是一种非常好的模型评估手段吗?为什么最后评估的时间不消CV
是不是因为val用来评估模型时也不能参与到训练中???
最后用来多种评估方法也有CV但是:
假如利用数据集合S来进行超参数搜索,是不是就不能再直接在S上进行CV评估,这也算一种数据泄露吧
集成建模

融合Blending


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

石小疯

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表