IT评测·应用市场-qidao123.com

标题: 新手村:逻辑回归-01.什么是逻辑回归-初识速学 [打印本页]

作者: 美食家大橙子    时间: 2025-3-25 00:30
标题: 新手村:逻辑回归-01.什么是逻辑回归-初识速学
新手村:逻辑回归-01.什么是逻辑回归-初识速学


   假设你是一个刚打仗逻辑回归的门生,如何能够快速明确并构建逻辑回归的理论体系,帮助举行后续呆板学习课程?如果直接利用Python sklearn工具举行代码例子学习,会遇到什么困难?
  门生思考方向:


需求引入

   我们必要一种方法,能从概率分布、损失函数和优化算法的底层逻辑出发,明确逻辑回归如何通过数学推导实现二分类任务,从而为后续学习更复杂的模型(如神经网络、支持向量机)打下基础。
  标题背景
假设你是一名门生,想根据测验结果(比如数学和语文分数)预测是否能考上重点高中(二分类标题:考上/没考上)。

因此
逻辑回归诞生了——它将线性回归的结果通过一个“概率转换器”(Sigmoid函数)映射到0到1之间,从而解决分类标题。
流程图



分解学习文章


待相识知识点补充:

什么是逻辑回归?

   逻辑回归(Logistic Regression)是呆板学习中一种基础且重要的分类算法,常用于二分类标题(如垃圾邮件检测、疾病诊断等),而非预测连续数值。它是呆板学习和统计学中应用最广泛的模型之一,尽管名字中包含“回归”,但它本质上是一个分类模型.
  为什么必要逻辑回归?


核心概念:概率与分类

⭐️⭐️⭐️ 伯努利分布
逻辑回归假设目标变量                                    Y                              Y                  Y 服从伯努利分布,即:
                                         P                            (                            Y                            =                            1                            ∣                            X                            )                            =                            p                            ,                                     P                            (                            Y                            =                            0                            ∣                            X                            )                            =                            1                            −                            p                                  P(Y=1 | X) = p, \quad P(Y=0 | X) = 1 - p                     P(Y=1∣X)=p,P(Y=0∣X)=1−p
例如,考上重点高中的概率                                    p                              p                  p 和没考上的概率                                    1                         −                         p                              1-p                  1−p 构成了伯努利分布。
⭐️⭐️⭐️对数几率(Log Odds)
对数几率是“成功概率”与“失败概率”比值的对数:
                                         对数几率                            =                            ln                            ⁡                                       (                                           p                                               1                                     −                                     p                                                      )                                            \text{对数几率} = \ln\left( \frac{p}{1-p} \right)                     对数几率=ln(1−pp​)
例如,若考上概率                                    p                         =                         0.8                              p=0.8                  p=0.8,则几率为                                    4                         :                         1                              4:1                  4:1,对数几率为                                    ln                         ⁡                         (                         4                         )                         ≈                         1.386                              \ln(4) \approx 1.386                  ln(4)≈1.386。
⭐️⭐️⭐️Sigmoid函数
Sigmoid函数将对数几率(或线性组合                                    z                              z                  z)映射到0到1的概率:
                                         p                            =                            σ                            (                            z                            )                            =                                       1                                           1                                  +                                               e                                                   −                                        z                                                                                p = \sigma(z) = \frac{1}{1 + e^{-z}}                     p=σ(z)=1+e−z1​
其S形曲线的特性:


数学推导:参数优化

⭐️⭐️⭐️ 极大似然估计(MLE)
逻辑回归的目标是找到使数据出现概率最大的参数                                    w                              w                  w 和                                    b                              b                  b。似然函数为所有样本概率的乘积:
                                         L                            (                            w                            ,                            b                            )                            =                                       ∏                                           i                                  =                                  1                                          N                                      P                            (                                       y                               i                                      ∣                                       x                               i                                      ;                            w                            ,                            b                            )                                  L(w,b) = \prod_{i=1}^N P(y_i | x_i; w,b)                     L(w,b)=i=1∏N​P(yi​∣xi​;w,b)
其中:
                                         P                            (                                       y                               i                                      ∣                                       x                               i                                      ;                            w                            ,                            b                            )                            =                            σ                            (                                       z                               i                                                 )                                           y                                  i                                                 ⋅                            (                            1                            −                            σ                            (                                       z                               i                                      )                                       )                                           1                                  −                                               y                                     i                                                                   P(y_i | x_i; w,b) = \sigma(z_i)^{y_i} \cdot (1 - \sigma(z_i))^{1 - y_i}                     P(yi​∣xi​;w,b)=σ(zi​)yi​⋅(1−σ(zi​))1−yi​
对数似然函数简化计算:
                                         ℓ                            (                            w                            ,                            b                            )                            =                                       ∑                                           i                                  =                                  1                                          N                                                 [                                           y                                  i                                          ln                               ⁡                               σ                               (                                           z                                  i                                          )                               +                               (                               1                               −                                           y                                  i                                          )                               ln                               ⁡                               (                               1                               −                               σ                               (                                           z                                  i                                          )                               )                               ]                                            \ell(w,b) = \sum_{i=1}^N \left[ y_i \ln \sigma(z_i) + (1 - y_i) \ln(1 - \sigma(z_i)) \right]                     ℓ(w,b)=i=1∑N​[yi​lnσ(zi​)+(1−yi​)ln(1−σ(zi​))]
梯度降落法
通过求导得到梯度,并迭代更新参数:
                                                                ∂                                  ℓ                                                      ∂                                               w                                     j                                                             =                                       ∑                                           i                                  =                                  1                                          N                                      (                                       y                               i                                      −                            σ                            (                                       z                               i                                      )                            )                                       x                                           i                                  ,                                  j                                                                                 ∂                                  ℓ                                                      ∂                                  b                                                 =                                       ∑                                           i                                  =                                  1                                          N                                      (                                       y                               i                                      −                            σ                            (                                       z                               i                                      )                            )                                  \frac{\partial \ell}{\partial w_j} = \sum_{i=1}^N (y_i - \sigma(z_i)) x_{i,j} \\ \frac{\partial \ell}{\partial b} = \sum_{i=1}^N (y_i - \sigma(z_i))                     ∂wj​∂ℓ​=i=1∑N​(yi​−σ(zi​))xi,j​∂b∂ℓ​=i=1∑N​(yi​−σ(zi​))
更新规则:
                                                    w                               j                                      ←                                       w                               j                                      +                            η                            ⋅                                                   ∂                                  ℓ                                                      ∂                                               w                                     j                                                                      b                            ←                            b                            +                            η                            ⋅                                                   ∂                                  ℓ                                                      ∂                                  b                                                       w_j \leftarrow w_j + \eta \cdot \frac{\partial \ell}{\partial w_j} \\ b \leftarrow b + \eta \cdot \frac{\partial \ell}{\partial b}                     wj​←wj​+η⋅∂wj​∂ℓ​b←b+η⋅∂b∂ℓ​
其中                                    η                              \eta                  η 是学习率,控制参数更新的步长。

实例演示:测验结果预测

数据示例
门生数学结果 (x₁)语文结果 (x₂)是否考上 (y)A85901B60700C75801D50600 训练过程
最终参数:假设                                    w                         =                         [                         0.5                         ,                         0.3                         ]                              w = [0.5, 0.3]                  w=[0.5,0.3],                                   b                         =                         −                         50                              b = -50                  b=−50,则决策边界为:
                                         0.5                                       x                               1                                      +                            0.3                                       x                               2                                      −                            50                            =                            0                                     ⇒                                                x                               2                                      =                                                   50                                  −                                  0.5                                               x                                     1                                                      0.3                                            0.5x_1 + 0.3x_2 - 50 = 0 \quad \Rightarrow \quad x_2 = \frac{50 - 0.5x_1}{0.3}                     0.5x1​+0.3x2​−50=0⇒x2​=0.350−0.5x1​​
这条直线将平面划分为“考上”和“没考上”两个地区。

决策边界与分类

逻辑回归的决策边界是线性的,其方程为:
                                                    w                               1                                                 x                               1                                      +                                       w                               2                                                 x                               2                                      +                            b                            =                            0                                  w_1 x_1 + w_2 x_2 + b = 0                     w1​x1​+w2​x2​+b=0


优缺点与实用场景

优点

缺点

实用场景


7. 常见标题解答

Q1:逻辑回归和线性回归的区别?

Q2:为什么用Sigmoid函数而不是其他函数?


总结与扩展思考

逻辑回归通过以下步调实现分类:
扩展思考

   通过体系性学习逻辑回归,门生不仅能把握其数学原理,还能明确分类任务的核心头脑,为后续学习更复杂的模型(如支持向量机、神经网络)打下基础。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4