体系化特性工程全流程：基于Scikit-Learn的实战指南与模型优化剖析 - IT评测·应用市场-qidao123.com

数据清洗 → 特征编码 → 特征转换 → 特征生成 → 特征选择 → 数据整合
↑ ↓
└─数据探索───┘

复制代码

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean') # strategy: mean/median/most_frequent

复制代码

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()

复制代码

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(drop='first', sparse_output=False) # drop参数避免多重共线性

复制代码

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler(with_mean=True, with_std=True)

复制代码

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(0, 1))

复制代码

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=False) # degree为多项式阶数

复制代码

from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_regression, k=3) # k为保留特征数

复制代码

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=2)

复制代码

from sklearn.compose import ColumnTransformer
numerical_cols = ['age', 'income']
categorical_cols = ['gender', 'education']
preprocessor = ColumnTransformer(
transformers=[
('num', StandardScaler(), numerical_cols),
('cat', OneHotEncoder(), categorical_cols)
])

复制代码

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
# 加载数据
data = fetch_california_housing(as_frame=True)
X = data.data
y = data.target
# 模拟缺失值（示例）
X['HouseAge'] = X['HouseAge'].mask(np.random.random(len(X)) < 0.1, np.nan)
# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 定义预处理流水线
numerical_cols = ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']
categorical_cols = ['OceanProximity'] # 假设有一个分类特征
preprocessor = ColumnTransformer(
transformers=[
('num', Pipeline([
('imputer', SimpleImputer(strategy='median')),
('scaler', StandardScaler())
]), numerical_cols),
('cat', Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')),
('encoder', OneHotEncoder(drop='if_binary'))
]), categorical_cols)
])
# 构建完整Pipeline（预处理 + 模型）
pipeline = Pipeline([
('preprocessor', preprocessor),
('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])
# 训练模型
pipeline.fit(X_train, y_train)
# 预测与评估
y_pred = pipeline.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")

复制代码