美食家大橙子 发表于 2025-3-25 00:30:45

新手村:逻辑回归-01.什么是逻辑回归-初识速学

新手村:逻辑回归-01.什么是逻辑回归-初识速学

https://i-blog.csdnimg.cn/direct/454ba3947f8a405491ebe1e80fa853a5.png
   假设你是一个刚打仗逻辑回归的门生,如何能够快速明确并构建逻辑回归的理论体系,帮助举行后续呆板学习课程?如果直接利用Python sklearn工具举行代码例子学习,会遇到什么困难?
门生思考方向:



[*]标题痛点:
如果仅依赖sklearn的LogisticRegression类直接调用模型,你可能无法明确以下关键标题:

[*]模型如何将输入特性映射到分类结果?
[*]参数(如权重w和偏置b)是如何确定的?
[*]为什么不能直接用线性回归解决分类标题?
这些疑问会导致你无法灵活调整模型(如处理非线性数据或解释结果),甚至可能误用算法。

需求引入

   我们必要一种方法,能从概率分布、损失函数和优化算法的底层逻辑出发,明确逻辑回归如何通过数学推导实现二分类任务,从而为后续学习更复杂的模型(如神经网络、支持向量机)打下基础。
标题背景:
假设你是一名门生,想根据测验结果(比如数学和语文分数)预测是否能考上重点高中(二分类标题:考上/没考上)。


[*]线性回归的局限性:
如果直接用线性回归(如                                       y                            =                            w                            x                            +                            b                                  y = wx + b                     y=wx+b),预测结果可能是连续值(如 1.2 或 -0.5),但现实我们必要的是概率(0到1之间)或类别(0或1)。
因此
逻辑回归诞生了——它将线性回归的结果通过一个“概率转换器”(Sigmoid函数)映射到0到1之间,从而解决分类标题。
流程图

https://i-blog.csdnimg.cn/direct/33b7b7b2e4c84352a51f4d97cd970ac1.png#pic_center
分解学习文章



[*]新手村:逻辑回归-明确01:目标变量、伯努利分布的概率概率、特性X之间的关系
[*]新手村:逻辑回归-明确02:逻辑回归中的伯努利分布
待相识知识点补充:


[*] 逻辑回归为什么必要服从伯努利分布?新手村:逻辑回归-明确02:逻辑回归中的伯努利分布
[*] 为什么输出概率与输入特性的线性组合z = w·x + b呈对数关系 新手村:逻辑回归-明确01:目标变量、伯努利分布的概率概率、特性X之间的关系
[*] Sigmoid函数为什么可以转换为概率?
[*] 为什么利用对数损失函数(交织熵损失)权衡预测与真实标签的差异?而不是其他损失函数,比如均方偏差?
[*] 信息熵理论?
[*] 通过最大化对数似然(等价于最小化对数损失函数),逻辑回归找到最优参数w,使得模型输出的概率与真实标签尽可能一致。如何明确?我是一个刚打仗的门生,请普通易懂大概举例讲解
什么是逻辑回归?

   逻辑回归(Logistic Regression)是呆板学习中一种基础且重要的分类算法,常用于二分类标题(如垃圾邮件检测、疾病诊断等),而非预测连续数值。它是呆板学习和统计学中应用最广泛的模型之一,尽管名字中包含“回归”,但它本质上是一个分类模型.
为什么必要逻辑回归?


[*] 分类任务的需求
假设你是一名门生,想根据数学和语文结果预测是否能考上重点高中(二分类标题:考上/没考上)。这类标题标核心是:

[*]输出类型:必要预测的是类别(0或1),而非连续值(如分数)。
[*]概率需求:希望知道“考上”的概率(如80%),而非直接得到0或1的硬分类结果。

[*] 线性回归的局限性
线性回归(如                                              y                               =                               w                               x                               +                               b                                    y = wx + b                        y=wx+b)的输出是连续值(如1.2或-0.5),无法直接表示概率或类别。例如:

[*]若预测结果为1.2,无法解释为“考上”的概率;
[*]若结果为负数(如-0.5),则逻辑上无法表示“不可能考上”。

[*] 逻辑回归的解决方案
逻辑回归通过以下步调解决分类标题:

[*]线性组合:将特性与权重联合,得到线性输出                                                   z                                  =                                             w                                     T                                              x                                  +                                  b                                          z = w^T x + b                           z=wTx+b;
[*]概率转换:用Sigmoid函数将线性输出映射到0到1的概率;
[*]优化参数:通过最大化数据的似然函数找到最佳权重和偏置。

核心概念:概率与分类

⭐️⭐️⭐️ 伯努利分布
逻辑回归假设目标变量                                    Y                              Y                  Y 服从伯努利分布,即:
                                       P                            (                            Y                            =                            1                            ∣                            X                            )                            =                            p                            ,                                     P                            (                            Y                            =                            0                            ∣                            X                            )                            =                            1                            −                            p                                  P(Y=1 | X) = p, \quad P(Y=0 | X) = 1 - p                     P(Y=1∣X)=p,P(Y=0∣X)=1−p
例如,考上重点高中的概率                                    p                              p                  p 和没考上的概率                                    1                         −                         p                              1-p                  1−p 构成了伯努利分布。
⭐️⭐️⭐️对数几率(Log Odds)
对数几率是“成功概率”与“失败概率”比值的对数:
                                       对数几率                            =                            ln                            ⁡                                       (                                           p                                             1                                     −                                     p                                                      )                                          \text{对数几率} = \ln\left( \frac{p}{1-p} \right)                     对数几率=ln(1−pp​)
例如,若考上概率                                    p                         =                         0.8                              p=0.8                  p=0.8,则几率为                                    4                         :                         1                              4:1                  4:1,对数几率为                                    ln                         ⁡                         (                         4                         )                         ≈                         1.386                              \ln(4) \approx 1.386                  ln(4)≈1.386。
⭐️⭐️⭐️Sigmoid函数
Sigmoid函数将对数几率(或线性组合                                    z                              z                  z)映射到0到1的概率:
                                       p                            =                            σ                            (                            z                            )                            =                                       1                                           1                                  +                                             e                                                   −                                        z                                                                              p = \sigma(z) = \frac{1}{1 + e^{-z}}                     p=σ(z)=1+e−z1​
其S形曲线的特性:


[*]当                                       z                            >                            0                                  z > 0                     z>0 时,                                        σ                            (                            z                            )                            >                            0.5                                  \sigma(z) > 0.5                     σ(z)>0.5,预测为正类(如“考上”);
[*]当                                       z                            =                            0                                  z = 0                     z=0 时,概率为0.5,表示两类概率相等;
[*]当                                       z                            <                            0                                  z < 0                     z<0 时,预测为负类(如“没考上”)。
数学推导:参数优化

⭐️⭐️⭐️ 极大似然估计(MLE)
逻辑回归的目标是找到使数据出现概率最大的参数                                    w                              w                  w 和                                    b                              b                  b。似然函数为所有样本概率的乘积:
                                       L                            (                            w                            ,                            b                            )                            =                                       ∏                                           i                                  =                                  1                                          N                                    P                            (                                       y                               i                                    ∣                                       x                               i                                    ;                            w                            ,                            b                            )                                  L(w,b) = \prod_{i=1}^N P(y_i | x_i; w,b)                     L(w,b)=i=1∏N​P(yi​∣xi​;w,b)
其中:
                                       P                            (                                       y                               i                                    ∣                                       x                               i                                    ;                            w                            ,                            b                            )                            =                            σ                            (                                       z                               i                                                 )                                           y                                  i                                                 ⋅                            (                            1                            −                            σ                            (                                       z                               i                                    )                                       )                                           1                                  −                                             y                                     i                                                                   P(y_i | x_i; w,b) = \sigma(z_i)^{y_i} \cdot (1 - \sigma(z_i))^{1 - y_i}                     P(yi​∣xi​;w,b)=σ(zi​)yi​⋅(1−σ(zi​))1−yi​
对数似然函数简化计算:
                                       ℓ                            (                            w                            ,                            b                            )                            =                                       ∑                                           i                                  =                                  1                                          N                                                 [                                           y                                  i                                          ln                               ⁡                               σ                               (                                           z                                  i                                          )                               +                               (                               1                               −                                           y                                  i                                          )                               ln                               ⁡                               (                               1                               −                               σ                               (                                           z                                  i                                          )                               )                               ]                                          \ell(w,b) = \sum_{i=1}^N \left[ y_i \ln \sigma(z_i) + (1 - y_i) \ln(1 - \sigma(z_i)) \right]                     ℓ(w,b)=i=1∑N​
梯度降落法
通过求导得到梯度,并迭代更新参数:
                                                                ∂                                  ℓ                                                      ∂                                             w                                     j                                                             =                                       ∑                                           i                                  =                                  1                                          N                                    (                                       y                               i                                    −                            σ                            (                                       z                               i                                    )                            )                                       x                                           i                                  ,                                  j                                                                                 ∂                                  ℓ                                                      ∂                                  b                                                 =                                       ∑                                           i                                  =                                  1                                          N                                    (                                       y                               i                                    −                            σ                            (                                       z                               i                                    )                            )                                  \frac{\partial \ell}{\partial w_j} = \sum_{i=1}^N (y_i - \sigma(z_i)) x_{i,j} \\ \frac{\partial \ell}{\partial b} = \sum_{i=1}^N (y_i - \sigma(z_i))                     ∂wj​∂ℓ​=i=1∑N​(yi​−σ(zi​))xi,j​∂b∂ℓ​=i=1∑N​(yi​−σ(zi​))
更新规则:
                                                    w                               j                                    ←                                       w                               j                                    +                            η                            ⋅                                                   ∂                                  ℓ                                                      ∂                                             w                                     j                                                                      b                            ←                            b                            +                            η                            ⋅                                                   ∂                                  ℓ                                                      ∂                                  b                                                       w_j \leftarrow w_j + \eta \cdot \frac{\partial \ell}{\partial w_j} \\ b \leftarrow b + \eta \cdot \frac{\partial \ell}{\partial b}                     wj​←wj​+η⋅∂wj​∂ℓ​b←b+η⋅∂b∂ℓ​
其中                                    η                              \eta                  η 是学习率,控制参数更新的步长。
实例演示:测验结果预测

数据示例
门生数学结果 (x₁)语文结果 (x₂)是否考上 (y)A85901B60700C75801D50600 训练过程

[*]初始化参数:假设                                       w                            =                            [                            0.1                            ,                            0.1                            ]                                  w =                      w=,                                        b                            =                            0                                  b = 0                     b=0。
[*]计算概率:

[*]对门生A:
                                                      z                                     =                                     0.1                                     ×                                     85                                     +                                     0.1                                     ×                                     90                                     =                                     17.5                                                 ⇒                                                 σ                                     (                                     17.5                                     )                                     ≈                                     1                                              z = 0.1 \times 85 + 0.1 \times 90 = 17.5 \quad \Rightarrow \quad \sigma(17.5) \approx 1                              z=0.1×85+0.1×90=17.5⇒σ(17.5)≈1
[*]对门生B:
                                                      z                                     =                                     0.1                                     ×                                     60                                     +                                     0.1                                     ×                                     70                                     =                                     13                                                 ⇒                                                 σ                                     (                                     13                                     )                                     ≈                                     1                                              z = 0.1 \times 60 + 0.1 \times 70 = 13 \quad \Rightarrow \quad \sigma(13) \approx 1                              z=0.1×60+0.1×70=13⇒σ(13)≈1
(此时预测结果与现实不符,需调整参数)

[*]梯度降落:通过多次迭代优化参数,直到预测概率与标签匹配度最高。
最终参数:假设                                    w                         =                         [                         0.5                         ,                         0.3                         ]                              w =                   w=,                                 b                         =                         −                         50                              b = -50                  b=−50,则决策边界为:
                                       0.5                                       x                               1                                    +                            0.3                                       x                               2                                    −                            50                            =                            0                                     ⇒                                                x                               2                                    =                                                   50                                  −                                  0.5                                             x                                     1                                                      0.3                                          0.5x_1 + 0.3x_2 - 50 = 0 \quad \Rightarrow \quad x_2 = \frac{50 - 0.5x_1}{0.3}                     0.5x1​+0.3x2​−50=0⇒x2​=0.350−0.5x1​​
这条直线将平面划分为“考上”和“没考上”两个地区。
决策边界与分类

逻辑回归的决策边界是线性的,其方程为:
                                                    w                               1                                                 x                               1                                    +                                       w                               2                                                 x                               2                                    +                            b                            =                            0                                  w_1 x_1 + w_2 x_2 + b = 0                     w1​x1​+w2​x2​+b=0


[*]上方地区:                                        P                            (                            Y                            =                            1                            )                            >                            0.5                                  P(Y=1) > 0.5                     P(Y=1)>0.5,预测为正类;
[*]下方地区:                                        P                            (                            Y                            =                            1                            )                            <                            0.5                                  P(Y=1) < 0.5                     P(Y=1)<0.5,预测为负类。
优缺点与实用场景

优点:


[*]简朴高效:计算速度快,恰当高维数据;
[*]概率输出:直接输出概率,便于阈值调整;
[*]可解释性:权重                                                    w                               j                                          w_j                     wj​ 表示特性对结果的影响方向和强度。
缺点:


[*]⭐️⭐️⭐️ 线性假设:仅实用于线性可分数据,若数据存在非线性关系需扩展(如多项式特性);
[*]⭐️⭐️⭐️对非常值敏感:极度值可能影响参数估计。
实用场景:


[*]⭐️⭐️⭐️二分类标题(如垃圾邮件检测);
[*]⭐️⭐️⭐️多分类标题(通过“一对多”策略扩展);
[*]⭐️⭐️⭐️⭐️⭐️⭐️必要概率输出的场景(如光荣评分)。
7. 常见标题解答

Q1:逻辑回归和线性回归的区别?


[*]输出类型:线性回归输出连续值,逻辑回归输出概率;
[*]损失函数:线性回归用均方偏差,逻辑回归用交织熵损失;
[*]实用任务:线性回归用于回归,逻辑回归用于分类。
Q2:为什么用Sigmoid函数而不是其他函数?


[*]Sigmoid函数的S形曲线天然恰当将实数映射到0-1概率;
[*]其导数情势简朴,便于梯度计算。
总结与扩展思考

逻辑回归通过以下步调实现分类:

[*]线性组合特性:将输入与权重联合;
[*]概率转换:用Sigmoid函数输出概率;
[*]参数优化:通过极大似然估计找到最佳参数;
[*]决策边界划分:根据概率阈值(如0.5)分类。
扩展思考:


[*]如何处理非线性可分数据?(引入多项式特性或核方法)
[*]如何防止过拟合?(正则化、交织验证)
[*]逻辑回归能否用于多分类标题?(通过“一对多”策略实现)
   通过体系性学习逻辑回归,门生不仅能把握其数学原理,还能明确分类任务的核心头脑,为后续学习更复杂的模型(如支持向量机、神经网络)打下基础。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 新手村:逻辑回归-01.什么是逻辑回归-初识速学