半亩花草 发表于 2025-1-25 22:23:07

2025美赛C题第一题大致思路

c题是看上去比较符合传统数学建模的一道题,应该也是属于比较好写的一类。
题目重述

本题目要求我们基于2024年巴黎夏季奥运会的奖牌榜数据以及其他汗青奥运会的数据,构建一个数学模子来猜测各国在2028年美国洛杉矶夏季奥运会上的表现。该模子须要思量以下几个方面:

[*] 奖牌数建模与猜测

[*]构建一个模子,能够猜测每个国家的金牌数目和总的奖牌数目。
[*]评估模子的不确定性/精确度,并提供衡量模子性能的方法。
[*]猜测2028年洛杉矶奥运会的奖牌榜环境,包罗所有用果的猜测区间。
[*]分析哪些国家的结果最有可能提高或下降,并给出来由。
[*]对于尚未得到过奖牌的国家,猜测有多少个国家可能在下届奥运会中赢得首枚奖牌,并给出这一估计的概率。
[*]研究特定奥运会的项目(数目和类型)对国家奖牌数的影响。
[*]探索哪些活动项目对于差别国家最为重要。
[*]分析本国选择的项目怎样影响终极的结果。

[*] “巨大教练”效应的研究

[*]搜刮数据以寻找由著名教练员转移执教国所引起的变化的证据。
[*]估计这种效应对奖牌数的详细影响。
[*]选择三个国家,确定它们应投资于“良好”教练的体育项目,并估算其对奖牌数的潜伏影响。

针对任务一 

我们可以思索当年的主办国是否可以对本国队伍的奖牌数产生影响,由于一般来说在主场都存在上风。
1. 数据预处置惩罚与特征工程

数据整合:


[*] 合并汗青奖牌榜、主办国信息、每届奥运会项目数目及类型,形成面板数据(国家-年份层面)。
[*] 添加变量:

[*] Host(虚拟变量,1=主办国,0=其他)
[*] Event_Change(项目数目变化,当前届项目数 - 上届项目数)
[*] Past_Medals(已往3届奖牌数的移动平均)
[*] Country_Sport_Strength(国家在特定项目标汗青奖牌占比)

处置惩罚首次参赛国家:


[*] 对于无汗青奖牌的国家,使用其活动员的个人数据(如参赛项目、汗青排名)构建特征:

[*] Athlete_Top8_Rate(活动员进入前8名的比例)
[*] Focus_Sport_Alignment(该国活动员主攻项目与当届新增项目标匹配度)

2. 模子构建

奖牌数猜测模子(金牌和总数)
接纳 面板负二项回归 处置惩罚过离散的计数数据:
https://latex.csdn.net/eq?%5Clog%28%5Clambda_%7Bit%7D%29%20%3D%20%5Calpha%20+%20%5Cbeta_1%20%5Ctext%7BPast%5C_Medals%7D_%7Bi%2Ct-1%7D%20+%20%5Cbeta_2%20%5Ctext%7BHost%7D_%7Bit%7D%20+%20%5Cbeta_3%20%5Ctext%7BEvent%5C_Change%7D_t%20+%20%5Cgamma_i%20+%20%5Cepsilon_%7Bit%7D


[*] 因变量:国家 ii 在年份 tt 的奖牌数 yityit​(服从负二项分布)
[*] 自变量:

[*] Past_Medals:国家 ii 已往三届奖牌数的加权平均(近期权重更高)
[*] Host:主办国效应(系数 β2​ 预期为正)
[*] Event_Changet:项目数目变化(影响奖牌池大小)
[*] γ:国家随机效应(捕捉未观察到的国家特征)

[*] 参数估计:极大似然估计(MLE),使用汗青数据拟合。
首次获奖国家猜测模子
接纳 Logistic回归 估计国家 ii 在下一届得到首枚奖牌的概率:
https://latex.csdn.net/eq?P%28%5Ctext%7BFirst%5C_Medal%7D_i%20%3D%201%29%20%3D%20%5Cfrac%7B1%7D%7B1%20+%20e%5E%7B-%28%5Ctheta_0%20+%20%5Ctheta_1%20%5Ctext%7BAthlete%5C_Top8%5C_Rate%7D_i%20+%20%5Ctheta_2%20%5Ctext%7BFocus%5C_Sport%5C_Alignment%7D_i%29%7D%7D


[*] 特征:

[*] Athlete_Top8_RateiAthlete_Top8_Ratei​:该国活动员在近两届进入前8名的比例
[*] Focus_Sport_AlignmentiFocus_Sport_Alignmenti​:该国重点项目标活动员数目与当届新增项目标重合度(如新增滑板,该国是否有大量滑板选手)

 
3. 模子验证与性能评估

奖牌数猜测模子:


[*] 时间序列交叉验证:以1984-2016年为训练集,猜测2020和2024年纪据(作为测试集),盘算:

[*] MAE(平均绝对毛病):衡量猜测值与实际值的平均毛病
[*] RMSE(均方根毛病):处罚较大毛病
[*] Coverage Rate:猜测区间(如95%)覆盖实际值的比例

根据这些毛病,使用多模子对比,去寻找最优的模子 
首次获奖模子:


[*] ROC-AUC:评估分类器区分本领
[*] Brier Score:衡量概率猜测的校准水平

从活动员层面进行盘算和猜测,然后再合成 到国家层面 。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 2025美赛C题第一题大致思路