进度24/12/17
昨日复盘:
尝试自己爬取了两个学校的就业信息数据,比力简朴但是顺通了爬虫流程
看别人的代码:AQX的。
今日进度:
分析明白昨天代码的过程,统计问题
过程明白
EDA部分
对于不同变量类型判别的举例说明:
初步划分数值型和种别型时:
- OverallQual: Rates the overall material and finish of the house
- 10 Very Excellent
- 9 Excellent
- 8 Very Good
- 7 Good
- 6 Above Average
- 5 Average
- 4 Below Average
- 3 Fair
- 2 Poor
- 1 Very Poor
- # 个人感觉这就相当于已经进行顺序编码的类型变量!!!
复制代码 填补空缺时划分顺序特性、一般种别特性和数值特性时:
对于不同类型变量利用的可视化图表及作用的明白
ked、skewed等概念
多变量分析要点及可视化方式
多重共线性multicollinearity
箱线图与离群点、skewed
空缺值填补策略
分组时分组依据怎么选?
特性工程
CV的应用
这里的交叉验证CV貌似只是在网格化搜索优化超参数模型的过程中利用,并没有用在终极的模型评估中,没太明白这样的用意,CV不是一种非常好的模型评估手段吗?为什么最后评估的时间不消CV
是不是因为val用来评估模型时也不能参与到训练中???
最后用来多种评估方法也有CV但是:
假如利用数据集合S来进行超参数搜索,是不是就不能再直接在S上进行CV评估,这也算一种数据泄露吧
集成建模
融合Blending
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |