新手村:逻辑回归-01.什么是逻辑回归-初识速学
新手村:逻辑回归-01.什么是逻辑回归-初识速学https://i-blog.csdnimg.cn/direct/454ba3947f8a405491ebe1e80fa853a5.png
假设你是一个刚打仗逻辑回归的门生,如何能够快速明确并构建逻辑回归的理论体系,帮助举行后续呆板学习课程?如果直接利用Python sklearn工具举行代码例子学习,会遇到什么困难?
门生思考方向:
[*]标题痛点:
如果仅依赖sklearn的LogisticRegression类直接调用模型,你可能无法明确以下关键标题:
[*]模型如何将输入特性映射到分类结果?
[*]参数(如权重w和偏置b)是如何确定的?
[*]为什么不能直接用线性回归解决分类标题?
这些疑问会导致你无法灵活调整模型(如处理非线性数据或解释结果),甚至可能误用算法。
需求引入
我们必要一种方法,能从概率分布、损失函数和优化算法的底层逻辑出发,明确逻辑回归如何通过数学推导实现二分类任务,从而为后续学习更复杂的模型(如神经网络、支持向量机)打下基础。
标题背景:
假设你是一名门生,想根据测验结果(比如数学和语文分数)预测是否能考上重点高中(二分类标题:考上/没考上)。
[*]线性回归的局限性:
如果直接用线性回归(如 y = w x + b y = wx + b y=wx+b),预测结果可能是连续值(如 1.2 或 -0.5),但现实我们必要的是概率(0到1之间)或类别(0或1)。
因此
逻辑回归诞生了——它将线性回归的结果通过一个“概率转换器”(Sigmoid函数)映射到0到1之间,从而解决分类标题。
流程图
https://i-blog.csdnimg.cn/direct/33b7b7b2e4c84352a51f4d97cd970ac1.png#pic_center
分解学习文章
[*]新手村:逻辑回归-明确01:目标变量、伯努利分布的概率概率、特性X之间的关系
[*]新手村:逻辑回归-明确02:逻辑回归中的伯努利分布
待相识知识点补充:
[*] 逻辑回归为什么必要服从伯努利分布?新手村:逻辑回归-明确02:逻辑回归中的伯努利分布
[*] 为什么输出概率与输入特性的线性组合z = w·x + b呈对数关系 新手村:逻辑回归-明确01:目标变量、伯努利分布的概率概率、特性X之间的关系
[*] Sigmoid函数为什么可以转换为概率?
[*] 为什么利用对数损失函数(交织熵损失)权衡预测与真实标签的差异?而不是其他损失函数,比如均方偏差?
[*] 信息熵理论?
[*] 通过最大化对数似然(等价于最小化对数损失函数),逻辑回归找到最优参数w,使得模型输出的概率与真实标签尽可能一致。如何明确?我是一个刚打仗的门生,请普通易懂大概举例讲解
什么是逻辑回归?
逻辑回归(Logistic Regression)是呆板学习中一种基础且重要的分类算法,常用于二分类标题(如垃圾邮件检测、疾病诊断等),而非预测连续数值。它是呆板学习和统计学中应用最广泛的模型之一,尽管名字中包含“回归”,但它本质上是一个分类模型.
为什么必要逻辑回归?
[*] 分类任务的需求
假设你是一名门生,想根据数学和语文结果预测是否能考上重点高中(二分类标题:考上/没考上)。这类标题标核心是:
[*]输出类型:必要预测的是类别(0或1),而非连续值(如分数)。
[*]概率需求:希望知道“考上”的概率(如80%),而非直接得到0或1的硬分类结果。
[*] 线性回归的局限性
线性回归(如 y = w x + b y = wx + b y=wx+b)的输出是连续值(如1.2或-0.5),无法直接表示概率或类别。例如:
[*]若预测结果为1.2,无法解释为“考上”的概率;
[*]若结果为负数(如-0.5),则逻辑上无法表示“不可能考上”。
[*] 逻辑回归的解决方案
逻辑回归通过以下步调解决分类标题:
[*]线性组合:将特性与权重联合,得到线性输出 z = w T x + b z = w^T x + b z=wTx+b;
[*]概率转换:用Sigmoid函数将线性输出映射到0到1的概率;
[*]优化参数:通过最大化数据的似然函数找到最佳权重和偏置。
核心概念:概率与分类
⭐️⭐️⭐️ 伯努利分布
逻辑回归假设目标变量 Y Y Y 服从伯努利分布,即:
P ( Y = 1 ∣ X ) = p , P ( Y = 0 ∣ X ) = 1 − p P(Y=1 | X) = p, \quad P(Y=0 | X) = 1 - p P(Y=1∣X)=p,P(Y=0∣X)=1−p
例如,考上重点高中的概率 p p p 和没考上的概率 1 − p 1-p 1−p 构成了伯努利分布。
⭐️⭐️⭐️对数几率(Log Odds)
对数几率是“成功概率”与“失败概率”比值的对数:
对数几率 = ln ( p 1 − p ) \text{对数几率} = \ln\left( \frac{p}{1-p} \right) 对数几率=ln(1−pp)
例如,若考上概率 p = 0.8 p=0.8 p=0.8,则几率为 4 : 1 4:1 4:1,对数几率为 ln ( 4 ) ≈ 1.386 \ln(4) \approx 1.386 ln(4)≈1.386。
⭐️⭐️⭐️Sigmoid函数
Sigmoid函数将对数几率(或线性组合 z z z)映射到0到1的概率:
p = σ ( z ) = 1 1 + e − z p = \sigma(z) = \frac{1}{1 + e^{-z}} p=σ(z)=1+e−z1
其S形曲线的特性:
[*]当 z > 0 z > 0 z>0 时, σ ( z ) > 0.5 \sigma(z) > 0.5 σ(z)>0.5,预测为正类(如“考上”);
[*]当 z = 0 z = 0 z=0 时,概率为0.5,表示两类概率相等;
[*]当 z < 0 z < 0 z<0 时,预测为负类(如“没考上”)。
数学推导:参数优化
⭐️⭐️⭐️ 极大似然估计(MLE)
逻辑回归的目标是找到使数据出现概率最大的参数 w w w 和 b b b。似然函数为所有样本概率的乘积:
L ( w , b ) = ∏ i = 1 N P ( y i ∣ x i ; w , b ) L(w,b) = \prod_{i=1}^N P(y_i | x_i; w,b) L(w,b)=i=1∏NP(yi∣xi;w,b)
其中:
P ( y i ∣ x i ; w , b ) = σ ( z i ) y i ⋅ ( 1 − σ ( z i ) ) 1 − y i P(y_i | x_i; w,b) = \sigma(z_i)^{y_i} \cdot (1 - \sigma(z_i))^{1 - y_i} P(yi∣xi;w,b)=σ(zi)yi⋅(1−σ(zi))1−yi
对数似然函数简化计算:
ℓ ( w , b ) = ∑ i = 1 N [ y i ln σ ( z i ) + ( 1 − y i ) ln ( 1 − σ ( z i ) ) ] \ell(w,b) = \sum_{i=1}^N \left[ y_i \ln \sigma(z_i) + (1 - y_i) \ln(1 - \sigma(z_i)) \right] ℓ(w,b)=i=1∑N
梯度降落法
通过求导得到梯度,并迭代更新参数:
∂ ℓ ∂ w j = ∑ i = 1 N ( y i − σ ( z i ) ) x i , j ∂ ℓ ∂ b = ∑ i = 1 N ( y i − σ ( z i ) ) \frac{\partial \ell}{\partial w_j} = \sum_{i=1}^N (y_i - \sigma(z_i)) x_{i,j} \\ \frac{\partial \ell}{\partial b} = \sum_{i=1}^N (y_i - \sigma(z_i)) ∂wj∂ℓ=i=1∑N(yi−σ(zi))xi,j∂b∂ℓ=i=1∑N(yi−σ(zi))
更新规则:
w j ← w j + η ⋅ ∂ ℓ ∂ w j b ← b + η ⋅ ∂ ℓ ∂ b w_j \leftarrow w_j + \eta \cdot \frac{\partial \ell}{\partial w_j} \\ b \leftarrow b + \eta \cdot \frac{\partial \ell}{\partial b} wj←wj+η⋅∂wj∂ℓb←b+η⋅∂b∂ℓ
其中 η \eta η 是学习率,控制参数更新的步长。
实例演示:测验结果预测
数据示例
门生数学结果 (x₁)语文结果 (x₂)是否考上 (y)A85901B60700C75801D50600 训练过程
[*]初始化参数:假设 w = [ 0.1 , 0.1 ] w = w=, b = 0 b = 0 b=0。
[*]计算概率:
[*]对门生A:
z = 0.1 × 85 + 0.1 × 90 = 17.5 ⇒ σ ( 17.5 ) ≈ 1 z = 0.1 \times 85 + 0.1 \times 90 = 17.5 \quad \Rightarrow \quad \sigma(17.5) \approx 1 z=0.1×85+0.1×90=17.5⇒σ(17.5)≈1
[*]对门生B:
z = 0.1 × 60 + 0.1 × 70 = 13 ⇒ σ ( 13 ) ≈ 1 z = 0.1 \times 60 + 0.1 \times 70 = 13 \quad \Rightarrow \quad \sigma(13) \approx 1 z=0.1×60+0.1×70=13⇒σ(13)≈1
(此时预测结果与现实不符,需调整参数)
[*]梯度降落:通过多次迭代优化参数,直到预测概率与标签匹配度最高。
最终参数:假设 w = [ 0.5 , 0.3 ] w = w=, b = − 50 b = -50 b=−50,则决策边界为:
0.5 x 1 + 0.3 x 2 − 50 = 0 ⇒ x 2 = 50 − 0.5 x 1 0.3 0.5x_1 + 0.3x_2 - 50 = 0 \quad \Rightarrow \quad x_2 = \frac{50 - 0.5x_1}{0.3} 0.5x1+0.3x2−50=0⇒x2=0.350−0.5x1
这条直线将平面划分为“考上”和“没考上”两个地区。
决策边界与分类
逻辑回归的决策边界是线性的,其方程为:
w 1 x 1 + w 2 x 2 + b = 0 w_1 x_1 + w_2 x_2 + b = 0 w1x1+w2x2+b=0
[*]上方地区: P ( Y = 1 ) > 0.5 P(Y=1) > 0.5 P(Y=1)>0.5,预测为正类;
[*]下方地区: P ( Y = 1 ) < 0.5 P(Y=1) < 0.5 P(Y=1)<0.5,预测为负类。
优缺点与实用场景
优点:
[*]简朴高效:计算速度快,恰当高维数据;
[*]概率输出:直接输出概率,便于阈值调整;
[*]可解释性:权重 w j w_j wj 表示特性对结果的影响方向和强度。
缺点:
[*]⭐️⭐️⭐️ 线性假设:仅实用于线性可分数据,若数据存在非线性关系需扩展(如多项式特性);
[*]⭐️⭐️⭐️对非常值敏感:极度值可能影响参数估计。
实用场景:
[*]⭐️⭐️⭐️二分类标题(如垃圾邮件检测);
[*]⭐️⭐️⭐️多分类标题(通过“一对多”策略扩展);
[*]⭐️⭐️⭐️⭐️⭐️⭐️必要概率输出的场景(如光荣评分)。
7. 常见标题解答
Q1:逻辑回归和线性回归的区别?
[*]输出类型:线性回归输出连续值,逻辑回归输出概率;
[*]损失函数:线性回归用均方偏差,逻辑回归用交织熵损失;
[*]实用任务:线性回归用于回归,逻辑回归用于分类。
Q2:为什么用Sigmoid函数而不是其他函数?
[*]Sigmoid函数的S形曲线天然恰当将实数映射到0-1概率;
[*]其导数情势简朴,便于梯度计算。
总结与扩展思考
逻辑回归通过以下步调实现分类:
[*]线性组合特性:将输入与权重联合;
[*]概率转换:用Sigmoid函数输出概率;
[*]参数优化:通过极大似然估计找到最佳参数;
[*]决策边界划分:根据概率阈值(如0.5)分类。
扩展思考:
[*]如何处理非线性可分数据?(引入多项式特性或核方法)
[*]如何防止过拟合?(正则化、交织验证)
[*]逻辑回归能否用于多分类标题?(通过“一对多”策略实现)
通过体系性学习逻辑回归,门生不仅能把握其数学原理,还能明确分类任务的核心头脑,为后续学习更复杂的模型(如支持向量机、神经网络)打下基础。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]