基于随机丛林算法的信用风险评估项目

打印 上一主题 下一主题

主题 1521|帖子 1521|积分 4563

引言

这是一个基于随机丛林算法的德国信用风险评估项目,主要目的是构建一个呆板学习模子来评估德国客户的信用风险,判断客户是否为高风险客户。 
  1. # -*- coding: utf-8 -*-
  2. """
  3. 德国信用风险评估随机森林模型
  4. """
  5. # 基础库导入
  6. import pandas as pd
  7. import numpy as np
  8. import matplotlib.pyplot as plt
  9. import seaborn as sns
  10. from sklearn.model_selection import train_test_split, GridSearchCV
  11. from sklearn.ensemble import RandomForestClassifier
  12. from sklearn.metrics import (accuracy_score, confusion_matrix,
  13.                              classification_report, roc_curve, auc)
  14. from sklearn.preprocessing import LabelEncoder, MinMaxScaler
  15. import os
  16. os.environ["QT_QPA_PLATFORM_PLUGIN_PATH"] = ".venv\Lib\site-packages\PyQt5\Qt5\plugins"
  17. plt.rcParams['font.sans-serif'] = ['SimHei']
  18. # 解决负号显示为方块的问题
  19. plt.rcParams['axes.unicode_minus'] = False
  20. plt.style.use('ggplot')  # 设置绘图风格
  21. # 数据加载与探索
  22. url = "https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data"
  23. columns = ['status', 'duration', 'credit_history', 'purpose', 'amount',
  24.            'savings', 'employment', 'installment_rate', 'personal_status',
  25.            'other_debtors', 'residence', 'property', 'age',
  26.            'other_installments', 'housing', 'existing_credits',
  27.            'job', 'dependents', 'telephone', 'foreign_worker', 'risk']
  28. #df = pd.read_csv(url, delim_whitespace=True, names=columns)
  29. df = pd.read_csv(url, sep='\s+', names=columns)
  30. # 数据预处理
  31. # 将目标变量转换为0/1(1表示高风险)
  32. df['risk'] = df['risk'].map({1:0, 2:1})
  33. # 类别型特征编码
  34. categorical_features = ['status', 'credit_history', 'purpose', 'savings',
  35.                         'employment', 'personal_status', 'other_debtors',
  36.                         'property', 'other_installments', 'housing',
  37.                         'job', 'telephone', 'foreign_worker']
  38. label_encoders = {}
  39. for col in categorical_features:
  40.     le = LabelEncoder()
  41.     df[col] = le.fit_transform(df[col])
  42.     label_encoders[col] = le
  43. # 数值型特征归一化
  44. numerical_features = ['duration', 'amount', 'installment_rate', 'age',
  45.                       'residence', 'existing_credits', 'dependents']
  46. scaler = MinMaxScaler()
  47. df[numerical_features] = scaler.fit_transform(df[numerical_features])
  48. # 划分数据集
  49. X = df.drop('risk', axis=1)
  50. y = df['risk']
  51. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
  52.                                                     random_state=42,
  53.                                                     stratify=y)
  54. # 随机森林模型训练
  55. # 初始化基础模型
  56. rf_base = RandomForestClassifier(random_state=42, class_weight='balanced')
  57. rf_base.fit(X_train, y_train)
  58. # 参数网格
  59. param_grid = {
  60.     'n_estimators': [100, 200],
  61.     'max_depth': [5, 10, None],
  62.     'min_samples_split': [2, 5],
  63.     'max_features': ['sqrt', 0.8]
  64. }
  65. # 网格搜索优化
  66. grid_search = GridSearchCV(rf_base, param_grid, cv=5, scoring='f1', n_jobs=-1)
  67. grid_search.fit(X_train, y_train)
  68. # 获取最优模型
  69. best_rf = grid_search.best_estimator_
  70. # 模型评估
  71. # 测试集预测
  72. y_pred = best_rf.predict(X_test)
  73. y_proba = best_rf.predict_proba(X_test)[:, 1]
  74. # 评估指标
  75. print("="*40)
  76. print("最佳参数组合:", grid_search.best_params_)
  77. print("测试集准确率: {:.2f}%".format(accuracy_score(y_test, y_pred)*100))
  78. print("\n分类报告:")
  79. print(classification_report(y_test, y_pred, target_names=['低风险', '高风险']))
  80. # 可视化部分
  81. plt.style.use('ggplot')
  82. # 特征重要性
  83. feature_importance = pd.Series(best_rf.feature_importances_, index=X.columns)
  84. top_features = feature_importance.sort_values(ascending=False).head(10)
  85. plt.figure(figsize=(10,6))
  86. top_features.sort_values().plot(kind='barh')
  87. plt.title('Top 10 特征重要性')
  88. plt.xlabel('重要性得分')
  89. plt.ylabel('特征名称')
  90. plt.tight_layout()
  91. plt.show()
  92. # 混淆矩阵
  93. plt.figure(figsize=(6,6))
  94. sns.heatmap(confusion_matrix(y_test, y_pred),
  95.             annot=True, fmt='d', cmap='Blues',
  96.             xticklabels=['低风险', '高风险'],
  97.             yticklabels=['低风险', '高风险'])
  98. plt.title('混淆矩阵')
  99. plt.ylabel('真实标签')
  100. plt.xlabel('预测标签')
  101. plt.show()
  102. # ROC曲线
  103. fpr, tpr, thresholds = roc_curve(y_test, y_proba)
  104. roc_auc = auc(fpr, tpr)
  105. plt.figure(figsize=(8,6))
  106. plt.plot(fpr, tpr, color='darkorange', lw=2,
  107.          label='ROC曲线 (AUC = %0.2f)' % roc_auc)
  108. plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
  109. plt.xlim([0.0, 1.0])
  110. plt.ylim([0.0, 1.05])
  111. plt.xlabel('假正率')
  112. plt.ylabel('真正率')
  113. plt.title('受试者工作特征曲线')
  114. plt.legend(loc="lower right")
  115. plt.show()
  116. # 风险客户特征分析(示例)
  117. risk_df = df[df['risk'] == 1]
  118. # 贷款目的分析
  119. purpose_mapping = label_encoders['purpose'].classes_
  120. plt.figure(figsize=(10,6))
  121. sns.countplot(x='purpose', data=risk_df, order=risk_df['purpose'].value_counts().index)
  122. plt.xticks(ticks=range(len(purpose_mapping)), labels=purpose_mapping, rotation=45)
  123. plt.title('高风险客户贷款目的分布')
  124. plt.xlabel('贷款目的')
  125. plt.ylabel('数量')
  126. plt.tight_layout()
  127. plt.show()
  128. # 存款情况分析
  129. savings_mapping = label_encoders['savings'].classes_  # 获取存款情况的原始类别
  130. # 定义颜色列表,可根据需要调整
  131. colors = sns.color_palette('pastel')[:len(savings_mapping)]
  132. # 定义爆炸效果,这里突出显示第一个部分,可根据需要调整
  133. explode = [0.1] + [0] * (len(savings_mapping) - 1)
  134. plt.figure(figsize=(8, 5))  # 设置图形大小
  135. risk_df['savings'].value_counts().sort_index().plot(
  136.     kind='pie',
  137.     autopct='%1.1f%%',
  138.     labels=savings_mapping,
  139.     colors=colors,
  140.     explode=explode,
  141.     shadow=True,  # 添加阴影
  142.     startangle=90  # 设置起始角度
  143. )
  144. plt.title('高风险客户储蓄账户分布', fontsize=14)  # 设置标题并调整字体大小
  145. plt.axis('equal')  # 保证饼图是圆形
  146. plt.tight_layout()  # 自动调整布局
  147. plt.show()  # 显示图
复制代码
总体先容

1. 数据获取与处置惩罚



  • 数据加载:从 https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data 下载德国信用风险数据集。
  • 数据预处置惩罚

    • 将目的变量 risk 转换为 0/1 编码,此中 1 表现高风险。
    • 对类别型特征使用 LabelEncoder 举行编码。
    • 对数值型特征使用 MinMaxScaler 举行归一化处置惩罚。

2. 模子构建与训练



  • 模子选择:使用随机丛林分类器 RandomForestClassifier 作为猜测模子。
  • 模子优化:通过 GridSearchCV 举行网格搜索,探求最优的模子参数组合,以进步模子性能。
3. 模子评估



  • 猜测效果:使用最优模子对测试集举行猜测,得到猜测标签 y_pred 和猜测概率 y_proba。
  • 评估指标:计算并输出最佳参数组合、测试集准确率、分类陈诉等评估指标。
4. 可视化分析



  • 特征紧张性:绘制前 10 个最紧张特征的柱状图,资助明白哪些特征对模子猜测影响最大。
  • 混淆矩阵:使用热力图展示模子在测试集上的分类效果,直观出现模子的误判情况。
  • ROC 曲线:绘制受试者工作特征曲线,计算并展示曲线下面积(AUC),评估模子的分类性能。
5. 风险客户特征分析



  • 贷款目的分析:统计高风险客户的贷款目的分布,绘制柱状图展示不同贷款目的的客户数量。
  • 存款情况分析:统计高风险客户的存款账户分布,绘制饼图展示不同存款情况的客户占比。
模块分解

1. 导入库和设置情况变量

  1. # -*- coding: utf-8 -*-
  2. """
  3. 德国信用风险评估随机森林模型
  4. """
  5. # 基础库导入
  6. import pandas as pd  # 用于数据处理和分析
  7. import numpy as np  # 用于科学计算
  8. import matplotlib.pyplot as plt  # 用于数据可视化
  9. import seaborn as sns  # 基于matplotlib的高级可视化库
  10. from sklearn.model_selection import train_test_split, GridSearchCV  # 用于划分数据集和网格搜索
  11. from sklearn.ensemble import RandomForestClassifier  # 随机森林分类器
  12. from sklearn.metrics import (accuracy_score, confusion_matrix,
  13.                              classification_report, roc_curve, auc)  # 模型评估指标
  14. from sklearn.preprocessing import LabelEncoder, MinMaxScaler  # 用于特征编码和归一化
  15. import os
  16. # 设置Qt平台插件路径,解决可视化窗口显示问题
  17. os.environ["QT_QPA_PLATFORM_PLUGIN_PATH"] = "F:\cv\.venv\Lib\site-packages\PyQt5\Qt5\plugins"
  18. plt.rcParams['font.sans-serif'] = ['SimHei']
  19. # 解决负号显示为方块的问题
  20. plt.rcParams['axes.unicode_minus'] = False
  21. plt.style.use('ggplot')  # 设置绘图风格
复制代码


  • pandas:用于数据处置惩罚和分析,提供了 DataFrame 和 Series 等数据结构,方便对表格数据举行操纵。
  • numpy:用于科学计算,提供了高效的多维数组对象和各种数学函数。
  • matplotlib 和 seaborn:用于数据可视化,matplotlib 是底子的画图库,seaborn 基于 matplotlib 提供了更高级、更美观的画图接口。
  • sklearn 相干模块

    • train_test_split:用于将数据集划分为训练集和测试集。
    • GridSearchCV:用于举行网格搜索,自动探求模子的最优参数组合。
    • RandomForestClassifier:随机丛林分类器,是一种集成学习算法。
    • accuracy_score、confusion_matrix、classification_report、roc_curve、auc:用于评估模子的性能。
    • LabelEncoder:用于对类别型特征举行编码,将字符串类型的类别转换为数值类型。
    • MinMaxScaler:用于对数值型特征举行归一化处置惩罚,将特征值缩放到 [0, 1] 区间。

  • os.environ["QT_QPA_PLATFORM_PLUGIN_PATH"]:设置 Qt 平台插件的路径,办理使用 matplotlib 表现图形时大概出现的 Qt 插件找不到的题目。
2. 数据加载与探索

  1. # 数据加载与探索
  2. url = "https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data"
  3. columns = ['status', 'duration', 'credit_history', 'purpose', 'amount',
  4.            'savings', 'employment', 'installment_rate', 'personal_status',
  5.            'other_debtors', 'residence', 'property', 'age',
  6.            'other_installments', 'housing', 'existing_credits',
  7.            'job', 'dependents', 'telephone', 'foreign_worker', 'risk']
  8. # 从指定URL读取数据,使用正则表达式 \s+ 作为分隔符
  9. df = pd.read_csv(url, sep='\s+', names=columns)
复制代码


  • url:指定命据集的网络所在,该数据集是德国信用风险评估的公开数据集。
  • columns:定义数据会合各列的名称。
  • pd.read_csv:从指定的 URL 读取数据,sep='\s+' 表现使用一个或多个空缺字符作为分隔符,names=columns 表现使用 columns 列表中的名称作为列名。
3. 数据预处置惩罚

  1. # 将目标变量转换为0/1(1表示高风险)
  2. df['risk'] = df['risk'].map({1:0, 2:1})
  3. # 类别型特征编码
  4. categorical_features = ['status', 'credit_history', 'purpose', 'savings',
  5.                         'employment', 'personal_status', 'other_debtors',
  6.                         'property', 'other_installments', 'housing',
  7.                         'job', 'telephone', 'foreign_worker']
  8. label_encoders = {}
  9. for col in categorical_features:
  10.     le = LabelEncoder()  # 创建LabelEncoder对象
  11.     df[col] = le.fit_transform(df[col])  # 对类别型特征进行编码
  12.     label_encoders[col] = le  # 保存每个特征的编码器
  13. # 数值型特征归一化
  14. numerical_features = ['duration', 'amount', 'installment_rate', 'age',
  15.                       'residence', 'existing_credits', 'dependents']
  16. scaler = MinMaxScaler()  # 创建MinMaxScaler对象
  17. df[numerical_features] = scaler.fit_transform(df[numerical_features])  # 对数值型特征进行归一化
复制代码


  • map 方法:将 risk 列中的值 1 映射为 0,2 映射为 1,使得 1 表现高风险,0 表现低风险。


  • categorical_features:定义所有类别型特征的列名。
  • LabelEncoder:对每个类别型特征举行编码,将字符串类型的类别转换为连续的整数。
  • label_encoders:保存每个类别型特征对应的编码器,方便后续对新数据举行编码或者逆编码。
  • numerical_features:定义所有数值型特征的列名。
  • MinMaxScaler:对数值型特征举行归一化处置惩罚,将每个特征的取值范围缩放到 [0, 1] 之间。
4. 划分数据集

  1. # 划分数据集
  2. X = df.drop('risk', axis=1)  # 特征矩阵
  3. y = df['risk']  # 目标变量
  4. # 划分训练集和测试集,测试集占比30%,保持类别分布一致
  5. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
  6.                                                     random_state=42,
  7.                                                     stratify=y)
复制代码



  • X = df.drop('risk', axis=1):将除 risk 列之外的所有列作为特征矩阵 X。
  • y = df['risk']:将 risk 列作为目的变量 y。
  • train_test_split:将数据集划分为训练集和测试集,test_size=0.3 表现测试集占总数据集的 30%,random_state=42 用于设置随机种子,包管每次划分的效果相同,stratify=y 表现按照目的变量的类别分布举行分层抽样,确保训练集和测试会合各类别的比例与原始数据集相同。
5. 随机丛林模子训练

  1. # 初始化基础模型
  2. rf_base = RandomForestClassifier(random_state=42, class_weight='balanced')  # 创建随机森林分类器,处理类别不平衡问题
  3. rf_base.fit(X_train, y_train)  # 训练模型
  4. # 参数网格
  5. param_grid = {
  6.     'n_estimators': [100, 200],  # 决策树的数量
  7.     'max_depth': [5, 10, None],  # 决策树的最大深度
  8.     'min_samples_split': [2, 5],  # 拆分内部节点所需的最小样本数
  9.     'max_features': ['sqrt', 0.8]  # 寻找最佳分割时要考虑的特征数量
  10. }
  11. # 网格搜索优化
  12. grid_search = GridSearchCV(rf_base, param_grid, cv=5, scoring='f1', n_jobs=-1)  # 创建网格搜索对象
  13. grid_search.fit(X_train, y_train)  # 进行网格搜索
  14. # 获取最优模型
  15. best_rf = grid_search.best_estimator_  # 获取最优模型
复制代码


  • RandomForestClassifier:初始化一个随机丛林分类器,random_state=42 包管每次模子训练的效果可复现,class_weight='balanced' 用于处置惩罚类别不平衡题目,自动调解各类别的权重。
  • fit 方法:使用训练集数据对模子举行训练。
  • param_grid:定义需要搜索的参数组合,包罗决策树的数量 n_estimators、决策树的最大深度 max_depth、拆分内部节点所需的最小样本数 min_samples_split 和探求最佳分割时要思量的特征数量 max_features。
  • GridSearchCV:创建一个网格搜索对象,cv=5 表现举行 5 折交错验证,scoring='f1' 表现使用 F1 分数作为评估指标,n_jobs=-1 表现使用所有可用的 CPU 核心举行并行计算。
  • fit 方法:对训练集举行网格搜索,探求最优的参数组合。
  • best_estimator_:获取网格搜索得到的最优模子。
6. 模子评估

  1. # 测试集预测
  2. y_pred = best_rf.predict(X_test)  # 预测标签
  3. y_proba = best_rf.predict_proba(X_test)[:, 1]  # 预测概率
  4. # 评估指标
  5. print("="*40)
  6. print("最佳参数组合:", grid_search.best_params_)  # 输出最优参数组合
  7. print("测试集准确率: {:.2f}%".format(accuracy_score(y_test, y_pred)*100))  # 输出测试集准确率
  8. print("\n分类报告:")
  9. print(classification_report(y_test, y_pred, target_names=['低风险', '高风险']))  # 输出分类报告
复制代码



  • predict 方法:使用最优模子对测试集举行猜测,得到猜测标签 y_pred。
  • predict_proba 方法:使用最优模子对测试集举行猜测,得到每个样本属于各个类别的概率,[:, 1] 表现取属于高风险类别的概率。
  • accuracy_score:计算测试集的准确率。
  • classification_report:生成分类陈诉,包罗精确率、召回率、F1 分数等评估指标。


7. 可视化部分

特征紧张性

  1. plt.style.use('ggplot')  # 设置绘图风格
  2. # 特征重要性
  3. feature_importance = pd.Series(best_rf.feature_importances_, index=X.columns)  # 计算特征重要性
  4. top_features = feature_importance.sort_values(ascending=False).head(10)  # 选取前10个重要特征
  5. plt.figure(figsize=(10,6))  # 设置图形大小
  6. top_features.sort_values().plot(kind='barh')  # 绘制水平柱状图
  7. plt.title('Top 10 特征重要性')  # 设置标题
  8. plt.xlabel('重要性得分')  # 设置x轴标签
  9. plt.ylabel('特征名称')  # 设置y轴标签
  10. plt.tight_layout()  # 自动调整布局
  11. plt.show()  # 显示图形
复制代码


  • best_rf.feature_importances_:获取最优模子中每个特征的紧张性得分。
  • pd.Series:将特征紧张性得分转换为 Series 对象,方便后续处置惩罚。
  • sort_values:对特征紧张性得分举行排序,选取前 10 个最紧张的特征。
  • plot(kind='barh'):绘制水平柱状图,展示前 10 个特征的紧张性得分。



混淆矩阵

  1. plt.figure(figsize=(6,6))  # 设置图形大小
  2. sns.heatmap(confusion_matrix(y_test, y_pred),
  3.             annot=True, fmt='d', cmap='Blues',  # 绘制热力图,显示数值
  4.             xticklabels=['低风险', '高风险'],
  5.             yticklabels=['低风险', '高风险'])
  6. plt.title('混淆矩阵')  # 设置标题
  7. plt.ylabel('真实标签')  # 设置y轴标签
  8. plt.xlabel('预测标签')  # 设置x轴标签
  9. plt.show()  # 显示图形
复制代码


  • confusion_matrix:计算测试集的混淆矩阵。
  • sns.heatmap:使用 seaborn 库绘制热力图,直观展示模子的分类效果。

ROC曲线

  1. fpr, tpr, thresholds = roc_curve(y_test, y_proba)  # 计算ROC曲线的假正率、真正率和阈值
  2. roc_auc = auc(fpr, tpr)  # 计算ROC曲线下的面积
  3. plt.figure(figsize=(8,6))  # 设置图形大小
  4. plt.plot(fpr, tpr, color='darkorange', lw=2,
  5.          label='ROC曲线 (AUC = %0.2f)' % roc_auc)  # 绘制ROC曲线
  6. plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # 绘制随机分类器的对角线
  7. plt.xlim([0.0, 1.0])  # 设置x轴范围
  8. plt.ylim([0.0, 1.05])  # 设置y轴范围
  9. plt.xlabel('假正率')  # 设置x轴标签
  10. plt.ylabel('真正率')  # 设置y轴标签
  11. plt.title('受试者工作特征曲线')  # 设置标题
  12. plt.legend(loc="lower right")  # 设置图例位置
  13. plt.show()  # 显示图形
复制代码


  • roc_curve:计算 ROC 曲线的假正率 fpr、真正率 tpr 和阈值 thresholds。
  • auc:计算 ROC 曲线下的面积 roc_auc。
  • plt.plot:绘制 ROC 曲线和随机分类器的对角线。

8. 风险客户特征分析

贷款目的分析

  1. # 风险客户特征分析(示例)
  2. risk_df = df[df['risk'] == 1]  # 筛选出高风险客户
  3. # 贷款目的分析
  4. purpose_mapping = label_encoders['purpose'].classes_  # 获取贷款目的的原始类别
  5. plt.figure(figsize=(10,6))  # 设置图形大小
  6. sns.countplot(x='purpose', data=risk_df, order=risk_df['purpose'].value_counts().index)  # 绘制柱状图
  7. plt.xticks(ticks=range(len(purpose_mapping)), labels=purpose_mapping, rotation=45)  # 设置x轴刻度和标签
  8. plt.title('高风险客户贷款目的分布')  # 设置标题
  9. plt.xlabel('贷款目的')  # 设置x轴标签
  10. plt.ylabel('数量')  # 设置y轴标签
  11. plt.tight_layout()  # 自动调整布局
  12. plt.show()  # 显示图形
复制代码



  • risk_df = df[df['risk'] == 1]:筛选出高风险客户的数据。
  • label_encoders['purpose'].classes_:获取 purpose 特征的原始类别。
  • sns.countplot:绘制柱状图,展示高风险客户的贷款目的分布。

存款情况分析

  1. # 存款情况分析
  2. savings_mapping = label_encoders['savings'].classes_  # 获取存款情况的原始类别
  3. # 定义颜色列表,可根据需要调整
  4. colors = sns.color_palette('pastel')[:len(savings_mapping)]
  5. # 定义爆炸效果,这里突出显示第一个部分,可根据需要调整
  6. explode = [0.1] + [0] * (len(savings_mapping) - 1)
  7. plt.figure(figsize=(8, 5))  # 设置图形大小
  8. risk_df['savings'].value_counts().sort_index().plot(
  9.     kind='pie',
  10.     autopct='%1.1f%%',
  11.     labels=savings_mapping,
  12.     colors=colors,
  13.     explode=explode,
  14.     shadow=True,  # 添加阴影
  15.     startangle=90  # 设置起始角度
  16. )
  17. plt.title('高风险客户储蓄账户分布', fontsize=14)  # 设置标题并调整字体大小
  18. plt.axis('equal')  # 保证饼图是圆形
  19. plt.tight_layout()  # 自动调整布局
  20. plt.show()  # 显示图
复制代码


  • label_encoders['savings'].classes_:获取 savings 特征的原始类别。
  • plot(kind='pie'):绘制饼图,展示高风险客户的存款账户分布。



通过以上步骤,我们完成了从数据加载、预处置惩罚、模子训练、评估到可视化分析的整个流程,对德国信用风险举行评估和分析。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表