线性回归的局限性
线性回归(如 y = w x + b y = wx + b y=wx+b)的输出是连续值(如1.2或-0.5),无法直接表示概率或类别。例如:
若预测结果为1.2,无法解释为“考上”的概率;
若结果为负数(如-0.5),则逻辑上无法表示“不可能考上”。
逻辑回归的解决方案
逻辑回归通过以下步调解决分类标题:
线性组合:将特性与权重联合,得到线性输出 z = w T x + b z = w^T x + b z=wTx+b;
概率转换:用Sigmoid函数将线性输出映射到0到1的概率;
优化参数:通过最大化数据的似然函数找到最佳权重和偏置。
核心概念:概率与分类
⭐️⭐️⭐️ 伯努利分布
逻辑回归假设目标变量 Y Y Y 服从伯努利分布,即:
P ( Y = 1 ∣ X ) = p , P ( Y = 0 ∣ X ) = 1 − p P(Y=1 | X) = p, \quad P(Y=0 | X) = 1 - p P(Y=1∣X)=p,P(Y=0∣X)=1−p
例如,考上重点高中的概率 p p p 和没考上的概率 1 − p 1-p 1−p 构成了伯努利分布。
⭐️⭐️⭐️对数几率(Log Odds)
对数几率是“成功概率”与“失败概率”比值的对数:
对数几率 = ln ( p 1 − p ) \text{对数几率} = \ln\left( \frac{p}{1-p} \right) 对数几率=ln(1−pp)
例如,若考上概率 p = 0.8 p=0.8 p=0.8,则几率为 4 : 1 4:1 4:1,对数几率为 ln ( 4 ) ≈ 1.386 \ln(4) \approx 1.386 ln(4)≈1.386。
⭐️⭐️⭐️Sigmoid函数
Sigmoid函数将对数几率(或线性组合 z z z)映射到0到1的概率:
p = σ ( z ) = 1 1 + e − z p = \sigma(z) = \frac{1}{1 + e^{-z}} p=σ(z)=1+e−z1
其S形曲线的特性:
当 z > 0 z > 0 z>0 时, σ ( z ) > 0.5 \sigma(z) > 0.5 σ(z)>0.5,预测为正类(如“考上”);
当 z = 0 z = 0 z=0 时,概率为0.5,表示两类概率相等;
当 z < 0 z < 0 z<0 时,预测为负类(如“没考上”)。
数学推导:参数优化
⭐️⭐️⭐️ 极大似然估计(MLE)
逻辑回归的目标是找到使数据出现概率最大的参数 w w w 和 b b b。似然函数为所有样本概率的乘积:
L ( w , b ) = ∏ i = 1 N P ( y i ∣ x i ; w , b ) L(w,b) = \prod_{i=1}^N P(y_i | x_i; w,b) L(w,b)=i=1∏NP(yi∣xi;w,b)
其中:
P ( y i ∣ x i ; w , b ) = σ ( z i ) y i ⋅ ( 1 − σ ( z i ) ) 1 − y i P(y_i | x_i; w,b) = \sigma(z_i)^{y_i} \cdot (1 - \sigma(z_i))^{1 - y_i} P(yi∣xi;w,b)=σ(zi)yi⋅(1−σ(zi))1−yi
对数似然函数简化计算:
ℓ ( w , b ) = ∑ i = 1 N [ y i ln σ ( z i ) + ( 1 − y i ) ln ( 1 − σ ( z i ) ) ] \ell(w,b) = \sum_{i=1}^N \left[ y_i \ln \sigma(z_i) + (1 - y_i) \ln(1 - \sigma(z_i)) \right] ℓ(w,b)=i=1∑N[yilnσ(zi)+(1−yi)ln(1−σ(zi))] 梯度降落法
通过求导得到梯度,并迭代更新参数:
∂ ℓ ∂ w j = ∑ i = 1 N ( y i − σ ( z i ) ) x i , j ∂ ℓ ∂ b = ∑ i = 1 N ( y i − σ ( z i ) ) \frac{\partial \ell}{\partial w_j} = \sum_{i=1}^N (y_i - \sigma(z_i)) x_{i,j} \\ \frac{\partial \ell}{\partial b} = \sum_{i=1}^N (y_i - \sigma(z_i)) ∂wj∂ℓ=i=1∑N(yi−σ(zi))xi,j∂b∂ℓ=i=1∑N(yi−σ(zi))
更新规则:
w j ← w j + η ⋅ ∂ ℓ ∂ w j b ← b + η ⋅ ∂ ℓ ∂ b w_j \leftarrow w_j + \eta \cdot \frac{\partial \ell}{\partial w_j} \\ b \leftarrow b + \eta \cdot \frac{\partial \ell}{\partial b} wj←wj+η⋅∂wj∂ℓb←b+η⋅∂b∂ℓ
其中 η \eta η 是学习率,控制参数更新的步长。 实例演示:测验结果预测