第十七届“华中杯”大学生数学建模挑衅赛题目C题就业状态分析与猜测完整 思绪 代码 模型 结果 分享
就业是最基本的民生,是经济发展的重要支持。当前,我国就业形势保持基本稳固,但也面临一些挑衅,就业布局性矛盾尚存在。促进高质量充分就业,是宏观经济政策的重要目的之一,是新时代新征程就业工作的新定位、新使命。高质量充分就业常受到宏观经济政策、经济发展程度等诸多因素影响,精准的就业状态猜测对充分就业政策制订具有重要参考代价。本赛题以宜昌地区部分就业数据为研究对象,旨在通过数学建模方法,对就业状态举行分析和猜测,进而为相关部门订定符合当地实际的就业政策提供科学的决议依据。本赛题提供了宜昌地区 5000 名被调査者的脱敏数据(见附件1),此中包含53个变量,涵盖被调查者的个人基本信息(好比:年事、民族、文化程度等 29个变量)、就业信息(好比:就业时间、行业代码、录用单位等9个变量)、赋闲信息(好比:赋闲时间、赋闲缘故起因、原从事工种等 15 个变量)以及猜测集 20个样本。
根据上述数据,请完成以下使命:
就业状态分析与猜测
摘 要
本研究基于宜昌地区5000名被调查者的就业数据,使用数学建模方法,分析和猜测了就业状态,并探索了多维因素对就业状态的影响及其猜测模型的优化方案。研究的主要目的是为当地政府和相关部门提供科学依据,订定更加精准的就业政策,并为赋闲群体提供个性化的岗位保举。
针对题目一,本研究通过对5000名被调查者的底子信息、教导背景、就业记载等数据的洗濯和整理,创建了就业状态分析模型。通过对差异群体(如年事、性别、学历、行业等)就业状态的划分与统计分析,揭示了这些特性与就业状态之间的关联性。研究结果表明,年事、学历和所属行业对就业状态的影响最为显着。具体而言,年轻群体(18-25岁)和高学历群体(本科及以上)具有较高的就业率,而低学历群体和中老年群体(45岁以上)赋闲率较高。此外,行业类别也是影响就业的重要因素,信息技能和制造业的就业率显着高于服务业和艺术类行业。
针对题目二,本研究构建了多个分类模型(逻辑回归、随机森林、XGBoost)来猜测个体的就业状态。在模型训练过程中,接纳了准确率、查准率、召回率和F1分数等指标对各个模型的性能举行评估。通过比较,发现随机森林模型在所有模型中表现最优。这表明随机森林模型在辨认就业状态方面具有较强的本领,尤其在辨认赋闲群体时,模型可以或许有效淘汰误判,具有较高的准确性和召回本领。
针对题目三,本研究进一步将宏观经济因素(如GDP、CPI、雇用岗位数等)引入就业猜测模型,以优化模型的泛化本领。通过引入外部变量后,模型的猜测准确性得到显着提升,尤其在考虑宏观经济变革时,模型可以或许更好地反映实际就业状态的波动。比方,CPI的变革和GDP增速对就业吸纳本领具有重要影响,雇用岗位数的增加通常与就业率的提高出现正相关。在优化后的模型中,准确率到达了98.6%,而且各项评估指标均表现出色,证明了宏观经济数据在就业状态猜测中的重要作用。
针对题目四,围绕赋闲人群的再就业保举,构建了融合规则打分与呆板学习的人岗匹配模型。模型基于赛题数据构造“人-岗对”特性向量,联合雇用数据、薪资程度、岗位技能要求与宏观经济变量,综合考虑年事、学历、专业、城市等因素举行猜测。在模型训练中引入随机森林分类器,评估指标准确率达95%以上。通过特性重要性分析与匹配热力图,深入揭示了影响匹配的关键因素和岗位布局分布,辅助实现岗位精准保举。实验表明,该模型具有较强的实用性和表明力,可为就业服务平台提供智能化人岗保举方案。
关键词:多维因素;就业状态分析模型;随机森林;分类模型;宏观经济因素
https://i-blog.csdnimg.cn/direct/f6a5b27e4929480fa94ccd97f48d921b.png
题目一:数据特性分析
请参赛者根据被调查者当前的就业状态(好比:就业赋闲时间、录用单位等信息)分析该地区当前就业的整体情况:并将人员按照年事、性别、学历、专业、行业等特性举行划分,根据划分特性分析其对就业状态的影响。
要求:在作品中明确对就业状态举行标注,请以示例表1格式给出就业赋闲状态数目:对差异层面因素的影响用图表形式举行展示。
5.1.1就业状态标注与判定逻辑
(1)判定准则公式化
https://i-blog.csdnimg.cn/direct/32abe3c1e9964dcc8ab1e442e472c988.png
(2)界限处置惩罚
若就业或赋闲时间为空,应设定公道的优先级;
可考虑以“录用单位”是否为空、赋闲缘故起因是否填写等作为辅助判定。
5.1.2整体就业情况统计分析
读取附件数据,判定就业时间与赋闲时间,通过两者早晚举行总结结业人数与赋闲人数,结果为:
状态
数目(人数)
赋闲
1134
就业
3846
根据数据提供的就业赋闲总数,可以看出总的赋闲生齿为1270人,就业生齿为3730人。根据这一数据可以初步得出,当前就业市场整体上有肯定的赋闲压力,但大多数人依然可以或许找到工作。这一比率表现出市场的生动度与竞争性。
https://i-blog.csdnimg.cn/direct/d4458ad48fdc49a98b069095d7343a34.png
饼图表现,77.2% 的人是就业的,而 22.8% 的人是赋闲的。这一数据表明,大多数人处于就业状态,但仍有相当一部分人面临赋闲题目。
5.1.3就业状态的多维特性分析
5.1.3.1年事对就业的影响
将年事分为五组:
18-25岁、26-35岁、36-45岁、46-55岁、56岁及以上
并统计每组人群中就业与赋闲人数的比例:
https://i-blog.csdnimg.cn/direct/30ba53f7f6294a259890afd529d84bcd.png
年事与就业状态密切相关。我们可以从各年事段的赋闲率与就业率中看出,年轻人和中年人的就业状况较好,而老年人(特别是55岁以上群体)赋闲率较高。具体来说:
18-25岁群体:这是就业市场中最具活力的群体。根据图表,18-25岁群体的就业率相对较高。这可能与年轻人进入劳动市场的时间较早、对工作要求较低以及更易接受初级岗位有关。年轻人通常有更多的时间去学习、积累经验,且相对轻易适应工作市场的变革。
26-35岁群体:这一群体的就业情况比18-25岁群体略有下降,但依然保持较高的就业率。这个年事段的人大多有肯定的工作经验和职业技能,可以在一些中级岗位上找到工作。
36-45岁群体:这个年事段的群体赋闲率略有上升,但整体就业率仍旧较高。随着家庭和社会责任的增加,这一群体的工作稳固性较强。
46-55岁群体:这一群体面临的就业挑衅开始显现。由于工作经历的积累,这一群体偶然可能面临技能更新滞后的题目,或者是由于年事较大,求职时可能受到肯定的歧视,导致赋闲率较高。
55岁以上群体:这是赋闲率最高的群体。年事增大使得这一群体的就业困难加剧。随着身材康健的下降和技能更新的要求,他们在找工作时可能面临更多的挑衅。
5.1.3.2性别对就业的影响
https://i-blog.csdnimg.cn/direct/886db70cdcff4745959c3b5322660fd2.png
从图表中看到,男性和女性的就业率差距不大,赋闲率也相对接近。这表明性别在当前就业市场中的影响相对较小,市场对男女求职者的需求差异不大,体现了性别平等在肯定程度上的进步。然而,尽管如此,某些行业或职位(如工程类职位)可能男性更有优势,而女性则可能在其他行业(如照顾护士、教导等)拥有更多就业机会。
5.1.3.3学历对就业状态的影响
按照学历分组,如“初中及以下”、“高中/中专”、“大专”、“本科”、“研究生及以上”举行分类统计:
https://i-blog.csdnimg.cn/direct/a5b127889d6f4ea8947a7d40575d0c87.png
学历越高,就业比例越高;本科及以上学历就业优势显着。
从学历条理来看,高学历群体的就业情况显着优于低学历群体。具体分析如下:
低学历群体(高中及以下):这些群体的赋闲率较高。这是因为他们的技能较为单一,市场需求有限,且随着工作岗位的技能要求越来越高,低学历群体面临的就业压力大。
本科及以上学历群体:这些群体的就业率相对较高。随着教导程度的提升,他们的专业本领更强,可以或许满意更高程度的工作岗位需求。尤其是对于某些行业(如科技、法律、金融等),高学历成为进入这些行业的必要条件。
硕士及以上学历群体:这一群体的赋闲率较低,通常可以或许进入专业性较强的行业,拥有较高的就业保障。尽管如此,随着高学历者的增加,也可能会出现“学历贬值”的征象,部分硕士学历群体面临过度教导的困境。
5.1.3.4专业范例对就业的影响
可根据“所学专业”字段举行聚类分析,初步按专业门类分组:
理工类、管理类、教导类、医药卫生类、文科类、艺术类等
统计各类就业比例,绘图展示如下:
https://i-blog.csdnimg.cn/direct/08d85af5244c4588806188fffd575499.png
管理、理工类就业率较高;艺术类、教导类相对较低,可能受岗位限定。
差异专业的就业状态有显着差异,像经济学、法学、工学、医学等专业,毕业生的就业率较高,而文学类、历史学类、农业学类等专业的就业率相对较低。通过这张图,我们可以看出一些市场上的供需关系,反映了社会各行业对差异砚历、差异专业技能的需求。这对于毕业生的职业规划和政策订定者在订定就业政策时有肯定的参考意义。
5.1.3.5所属行业对就业的影响
https://i-blog.csdnimg.cn/direct/007415b219874ce6955d6703a040492b.png
公共管理、制造业、信息技能等行业就业率较高;一些传统服务业就业率偏低。
在就业市场中,差异的行业对就业的需求和提供的岗位范例差异较大。通过分析差异专业的就业情况,我们可以更好地理解差异范畴的就业远景。
(1). 经济学和法学
就业远景:这些范畴的就业机会较多,尤其是在银行、金融、法律服务等行业。对于经济学和法学毕业生,特别是那些具有踏实理论底子和专业技能的人,通常可以或许在市场中找到较为稳固的工作岗位。
赋闲率:由于这些范畴的专业需求稳固且广泛,就业率较高。
(2). 工程学与医学
就业远景:这两个范畴的就业市场相对较好。特别是在医疗、建筑、信息技能等行业,需求量非常大。工程师、医生等职业在当今社会仍旧是稀缺职业,因此这些范畴的就业率较高。
赋闲率:工程学和医学专业的毕业生通常可以或许找到较为抱负的工作,因此赋闲率较低。
(3). 艺术和历史
就业远景:艺术和历史专业的就业机会相对较少,很多专业范畴依靠于国家或企业的资金支持,导致就业岗位较少。尤其是在经济不景气时,相关行业的雇用需求更加有限。
赋闲率:这些范畴的赋闲率较高,尤其是那些未能找到与专业相关工作的毕业生,他们可能需要转行或者从事与其专业不相关的工作。
(4). 其他范畴
其他范畴如教导、照顾护士、设计等范畴的就业状况因地区、行业需求等因素而差异。一样平常来说,教导行业对于学历要求较高,且随着生齿老龄化,相关行业的需求也在渐渐增加。而照顾护士行业则随着社会的医疗需求增加,其就业远景也逐渐看好。
https://i-blog.csdnimg.cn/direct/589b316e0ca544f79b73ba9e39b609fa.png
题目二:就业状态猜测
基于题目一的分析,选取与就业状态具有相关性的特性,构建就业状态猜测模型并对附件1中给定的“猜测集”举行猜测:并对各特性的重要性举行排序。要求:在作品中使用准确率、查准率、召回率、F1等指标对模型举行评估并用示例表2格式给出各评估指标的结果,用条形图绘制重要特性的排序,以示例表3格式给出其猜测结果。
5.2.1数据洗濯
使用的数据源为“数据集”工作表,自第3行开始记载真实数据,包含超过50个字段。这些字段涵盖了人员底子信息(性别、年事、生日、民族)、教导背景(毕业学校、专业、学历)、就业登记与赋闲记载(赋闲登记时间、注销时间、登记就业状态等),是典型的布局化表格数据。
5.2.1.1字段洗濯
由于该表中第一行为字段代码,第二行为字段中文含义,因此在处置惩罚前我们举行如下操作:
设置第3行为实际字段名;
删除第一、第二行阐明性信息;
删除全为缺失值(或缺乏代表性)字段,如部分单位名称、备注等。
5.2.1.2缺失值处置惩罚
部分字段存在缺失(如求职意愿、原单位名称等),我们接纳如下方式处置惩罚:
数值字段缺失:使用均值、中位数或分组均值填充(比方年事);
分类字段缺失:使用众数或“未知”占位;
日期字段缺失:保存为NaN,用于判定是否发生某类变乱(如未赋闲登记即视为未赋闲);
5.2.1.3构造目的变量:当前就业状态
通过以下逻辑构造标签即“是否处于就业状态”);若“赋闲信息登记表登记日期(c_acc03b)”存在,且“赋闲注销时间(c_acc028)”不存在或早于当前时间,则视为“赋闲”;若“赋闲注销时间”晚于“赋闲登记时间”,或无登记记载,则视为“就业”。
定义如下:
https://i-blog.csdnimg.cn/direct/d322550e2b9a4e2eacdbc54e71d13a9d.png
5.2.1.4原始字段筛选
从中初步筛选出对就业状态可能存在影响的变量,包罗:
底子属性类:性别、年事、民族、婚姻状态、政治面貌
教导类:学历、毕业时间、毕业学校、所学专业类别
就业登记类:是否有登记记载、赋闲范例、是否享受赋闲保险
求职意愿类:求职意愿、培训意愿、原用工形式
时间类变量:赋闲登记时间、注销时间、计算赋闲时长
5.2.1.5时间变量处置惩罚
计算了“赋闲时长”字段:
赋闲时长=注销时间−登记时间
若注销时间缺失,默认停止日期为数据观测最后时间。
5.2.2模型创建
5.2.2.1创建逻辑回归模型
逻辑回归是基于Sigmoid函数的广义线性模型,形式为:
https://i-blog.csdnimg.cn/direct/07493edf7fe441b89b4ba425426cff01.png
用向量形式表示为:
https://i-blog.csdnimg.cn/direct/663c1ea803014b848b0202ecf8ab4afa.png
参数估计
通过最大似然估计(MLE)举行参数估计,目的函数为对数似然:
https://i-blog.csdnimg.cn/direct/953d797ddbbc4cd98b75d37aad5f2237.png
通过梯度下降或拟牛顿法(如LBFGS)优化求解。
5.2.2.2创建随机森林模型
随机森林为集成学习方法,其思想为:
构造多个决议树(基学习器),每棵树使用训练集的随机子样本(Bootstrap);
在每个节点划分时仅选择部分特性子集;
猜测时接纳多数投票法(分类使命)。
其输出可表示为:
https://i-blog.csdnimg.cn/direct/f16794db90ff4d9d82f6c8d272be0267.png
5.2.3模型训练与评估
5.2.3.1训练测试划分
接纳70%训练集、30%测试集方式划分,保持类别比例同等
4.2指标设计
使用以下指标评估模型性能:
准确率(Accuracy):
https://i-blog.csdnimg.cn/direct/a626d4cb1a7c47cea8209f1c06bb9cf0.png
查准率(Precision)与查全率(Recall):
https://i-blog.csdnimg.cn/direct/4b33e9bfaed34365807bf4ee2ed036ff.png
F1分数(F1-score):
https://i-blog.csdnimg.cn/direct/75e0567c9a4443bc8b6b3aa56788042a.png
ROC曲线与AUC指标评估模型区分度。
https://i-blog.csdnimg.cn/direct/31a20010413f4717a9e030eec88d4ceb.png
https://i-blog.csdnimg.cn/direct/aacaab570d9d473c8a247d215b1c7159.png
https://i-blog.csdnimg.cn/direct/f1a86ab05d7747fc8197e70d1f85067f.png
题目三:就业状态猜测模型优化
除了个人层面因素影响外,宏观经济、政策、劳动力市场状况、宜昌市居民消费价格指数、雇用信息等也可能会影响就业状态。请参赛者收集相关数据,提取反映经济、市场等方面的影响因素,并联合题目一中的数据进一步完善就业状
态猜测模型,并对附件1中给定的“猜测集”举行猜测,
要求:在作品中以表格形式给出你选择的外部变量和数据来源;使用准确率查准率、召回率、F1等指标举行评估,并用表格形式给出各评估指标的计算结果
https://i-blog.csdnimg.cn/direct/60a117ce83754e3da714ac0ccb5ecf59.png
题目四:人岗精准匹配
基于赛题提供的数据,并联合采集到的雇用数据、交际媒体数据、薪资程度所需技能、宏观经济数据、行业动态数据等创建人岗匹配模型,捕获求职者和岗位之间的匹配关系,针对赛题数据中的赋闲人员举行工作保举
要求:在作品中以表格形式给出所考虑的外部变量和来源
https://i-blog.csdnimg.cn/direct/e429ca109b1740afa1785c7ac3c7ce65.png
https://i-blog.csdnimg.cn/direct/9dbcd8ab4b5f42438a26ca283531ecaf.png
完整获取
页:
[1]