物联网-【呆板学习】逐日一讲-朴素贝叶斯公式

大连密封材料 发表于 2025-9-23 06:20:38

【呆板学习】逐日一讲-朴素贝叶斯公式

一、朴素贝叶斯公式详解

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的分类算法，其核心思想是通过概率建模办理分类题目。它假设特征之间相互独立（即“朴素”的由来），只管这一假设在实际中大概不建立，但能大幅简化盘算，并在实际任务中表现出色。
1. 贝叶斯定理基础

贝叶斯定理形貌了条件概率之间的关系：
                                 P                      (                      A                      ∣                      B                      )                      =                                           P                            (                            B                            ∣                            A                            )                            ⋅                            P                            (                            A                            )                                              P                            (                            B                            )                                              P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}                P(A∣B)=P(B)P(B∣A)⋅P(A)
•                               P                      (                      A                      ∣                      B                      )                            P(A|B)                P(A∣B)：在事故B发生的条件下，事故A发生的概率（后验概率）。
•                               P                      (                      B                      ∣                      A                      )                            P(B|A)                P(B∣A)：在事故A发生的条件下，事故B发生的概率（似然概率）。
•                               P                      (                      A                      )                            P(A)                P(A) 和                                  P                      (                      B                      )                            P(B)                P(B)：事故A和B的先验概率（独立于其他事故的初始概率）。
2. 从贝叶斯定理到分类任务

在分类题目中，给定输入特征                            X                   =                   {                            x                      1                            ,                            x                      2                            ,                   .                   .                   .                   ,                            x                      n                            }                      X = \{x_1, x_2, ..., x_n\}             X={x1,x2,...,xn}，目的是找到最大概的种别                                     C                      k                               C_k             Ck。根据贝叶斯定理，盘算条件概率：
                                 P                      (                               C                         k                               ∣                      X                      )                      =                                           P                            (                            X                            ∣                                        C                               k                                        )                            ⋅                            P                            (                                        C                               k                                        )                                              P                            (                            X                            )                                              P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)}                P(Ck∣X)=P(X)P(X∣Ck)⋅P(Ck)
由于分母                            P                   (                   X                   )                      P(X)             P(X) 对所有种别雷同，只需最大化分子：
                                 P                      (                               C                         k                               ∣                      X                      )                      ∝                      P                      (                               C                         k                               )                      ⋅                      P                      (                      X                      ∣                               C                         k                               )                            P(C_k|X) \propto P(C_k) \cdot P(X|C_k)                P(Ck∣X)∝P(Ck)⋅P(X∣Ck)
3. 特征独立性假设

朴素贝叶斯假设所有特征在给定种别时条件独立，因此：
                                 P                      (                      X                      ∣                               C                         k                               )                      =                      P                      (                               x                         1                               ∣                               C                         k                               )                      ⋅                      P                      (                               x                         2                               ∣                               C                         k                               )                      ⋅                      .                      .                      .                      ⋅                      P                      (                               x                         n                               ∣                               C                         k                               )                      =                               ∏                                     i                            =                            1                                  n                               P                      (                               x                         i                               ∣                               C                         k                               )                            P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k) = \prod_{i=1}^n P(x_i|C_k)                P(X∣Ck)=P(x1∣Ck)⋅P(x2∣Ck)⋅...⋅P(xn∣Ck)=i=1∏nP(xi∣Ck)
终极分类公式为：
                                          C                         ^                               =                      arg                      ⁡                                           max                            ⁡                                              C                            k                                        P                      (                               C                         k                               )                      ⋅                               ∏                                     i                            =                            1                                  n                               P                      (                               x                         i                               ∣                               C                         k                               )                            \hat{C} = \arg\max_{C_k} P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k)                C^=argCkmaxP(Ck)⋅i=1∏nP(xi∣Ck)
•                                           C                         ^                                     \hat{C}                C^：猜测的种别。
•                               P                      (                               C                         k                               )                            P(C_k)                P(Ck)：种别                                     C                      k                               C_k             Ck 的先验概率（训练会合种别出现的频率）。
•                               P                      (                               x                         i                               ∣                               C                         k                               )                            P(x_i|C_k)                P(xi∣Ck)：在种别                                     C                      k                               C_k             Ck 下，特征                                     x                      i                               x_i             xi 的条件概率。
4. 条件概率的估计

差别数据范例需接纳差别的概率分布模子：
数据范例模子公式实用场景离散特征（如文本词频）多项式朴素贝叶斯                                           P                            (                                        x                               i                                        )                                  P(x_i)                      P(xi)                                           (                                        C                               k                                        )                                  (C_k)                      (Ck)=                                                                                  N                                                                   x                                           i                                                       ,                                                       C                                           k                                                                            +                                  α                                                                      N                                                    C                                        k                                                             +                                  α                                  n                                                          \frac{N_{x_i,C_k} + \alpha}{N_{C_k} + \alpha n}                      NCk+αnNxi,Ck+α一连特征（如温度）高斯朴素贝叶斯                                           P                            (                                        x                               i                                        )                                  P(x_i)                      P(xi)                                           (                                        C                               k                                        )                                  (C_k)                      (Ck)=                                                       1                                                          2                                     π                                                    σ                                                       C                                           k                                                       2                                                                                           e                                           −                                                                (                                                       x                                           i                                                       −                                                       μ                                                             C                                              k                                                                                        )                                           2                                                                                  2                                                       σ                                                             C                                              k                                                          2                                                                                                    \frac{1}{\sqrt{2\pi\sigma_{C_k}^2}} e^{-\frac{(x_i - \mu_{C_k})^2}{2\sigma_{C_k}^2}}                      2πσCk2                   1e−2σCk2(xi−μCk)2二值特征（如是否出现）伯努利朴素贝叶斯                                           P                            (                                        x                               i                                        )                                  P(x_i)                      P(xi)                                           (                                        C                               k                                        )                                  (C_k)                      (Ck) =                                           p                            ⋅                                        x                               i                                        +                            (                            1                            −                            p                            )                            (                            1                            −                                        x                               i                                        )                                  p \cdot x_i + (1-p)(1 - x_i)                      p⋅xi+(1−p)(1−xi)• 平滑处置处罚（如拉普拉斯平滑）：防止未出现的特征导致概率为0（比方，                                           α                            =                            1                                  \alpha=1                      α=1 时为加1平滑）。二、在AI范畴的作用

1. 文天职类与自然语言处置处罚（NLP）

• 垃圾邮件检测：根据邮件中单词的频率盘算概率，比方“免费”“中奖”等词在垃圾邮件中概率更高。
• 情感分析：判定批评的情感极性（正面/负面），比方“精良”“糟糕”等词的条件概率差别。
• 消息分类：将消息按主题分类（如体育、科技），基于关键词（如“进球”“算法”）的条件概率。
2. 推荐体系

• 协同过滤：结适用户汗青行为（如点击、购买）和物品特征（如影戏范例），猜测用户爱好。
• 点击率猜测：根据用户特征（年事、性别）和广告内容，猜测广告被点击的概率。
3. 医疗与生物信息学

• 疾病诊断：根据症状（发烧、咳嗽）和查抄指标（白细胞计数），盘算患者患某类疾病的概率。
• 基因数据分析：基于基因突变位点和表达水平，猜测癌症亚型或药物反应。
4. 及时监控与异常检测

• 金融风控：通过交易业务金额、频率、地点等特征，识别信用卡欺诈行为。
• 工业物联网（IIoT）：根据传感器数据（温度、振动），猜测装备故障概率。
5. 多模态数据处置处罚

• 图像分类：结合图像标签和像素统计特征（如颜色直方图），分类图像内容。
• 语音识别：基于声学特征（MFCC系数）和上下文词汇，识别语音内容。
三、推导过程示例（以文天职类为例）

假设训练数据包罗以下邮件及其标签：
邮件文本种别“免费赢取现金”垃圾邮件“集会安排附件”正常邮件“领取奖品如今”垃圾邮件“项目更新考核”正常邮件步调1：盘算先验概率
•                            P                   (                   垃圾邮件                   )                   =                            2                      4                            =                   0.5                      P(\text{垃圾邮件}) = \frac{2}{4} = 0.5             P(垃圾邮件)=42=0.5
•                            P                   (                   正常邮件                   )                   =                            2                      4                            =                   0.5                      P(\text{正常邮件}) = \frac{2}{4} = 0.5             P(正常邮件)=42=0.5
步调2：盘算条件概率
假设新邮件为 “免费奖品”，统计各单词在种别中的出现频率（利用拉普拉斯平滑，                            α                   =                   1                      \alpha=1             α=1）：
单词垃圾邮件中出现次数正常邮件中出现次数免费10奖品10赢取10现金10集会01安排01附件01领取10如今10项目01更新01考核01• 垃圾邮件下词汇总数：6（2封邮件，每封3词）
•                            P                   (                   免费                   ∣                   垃圾邮件                   )                   =                                     1                         +                         1                                        6                         +                         12                                     =                            2                      18                            =                   0.111                      P(\text{免费} | \text{垃圾邮件}) = \frac{1+1}{6+12} = \frac{2}{18} = 0.111             P(免费∣垃圾邮件)=6+121+1=182=0.111
•                            P                   (                   奖品                   ∣                   垃圾邮件                   )                   =                                     1                         +                         1                                        6                         +                         12                                     =                   0.111                      P(\text{奖品} | \text{垃圾邮件}) = \frac{1+1}{6+12} = 0.111             P(奖品∣垃圾邮件)=6+121+1=0.111
• 正常邮件下词汇总数：6
•                            P                   (                   免费                   ∣                   正常邮件                   )                   =                                     0                         +                         1                                        6                         +                         12                                     =                            1                      18                            =                   0.055                      P(\text{免费} | \text{正常邮件}) = \frac{0+1}{6+12} = \frac{1}{18} = 0.055             P(免费∣正常邮件)=6+120+1=181=0.055
•                            P                   (                   奖品                   ∣                   正常邮件                   )                   =                                     0                         +                         1                                        6                         +                         12                                     =                   0.055                      P(\text{奖品} | \text{正常邮件}) = \frac{0+1}{6+12} = 0.055             P(奖品∣正常邮件)=6+120+1=0.055
步调3：盘算连合概率
• 垃圾邮件：                            0.5                   ×                   0.111                   ×                   0.111                   =                   0.0061                      0.5 \times 0.111 \times 0.111 = 0.0061             0.5×0.111×0.111=0.0061
• 正常邮件：                            0.5                   ×                   0.055                   ×                   0.055                   =                   0.0015                      0.5 \times 0.055 \times 0.055 = 0.0015             0.5×0.055×0.055=0.0015
因此，邮件 “免费奖品” 被分类为垃圾邮件。
四、代码实现（Python）

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# 训练数据
emails = [
("免费赢取现金", "垃圾邮件"),
("会议安排附件", "正常邮件"),
("领取奖品现在", "垃圾邮件"),
("项目更新审核", "正常邮件")
]
texts = for email in emails]
labels = for email in emails]

# 文本向量化（词袋模型）
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
X_train = vectorizer.fit_transform(texts)

# 训练模型（使用拉普拉斯平滑）
model = MultinomialNB(alpha=1)
model.fit(X_train, labels)

# 预测新邮件
new_email = ["免费奖品"]
X_new = vectorizer.transform(new_email)
prediction = model.predict(X_new)
print(prediction)# 输出：['垃圾邮件']
五、总结

朴素贝叶斯是AI范畴的经典算法，其核心上风在于：

[*]高效性：盘算复杂度低，适合高维数据（如文天职类）。
[*]鲁棒性：对小规模数据或噪声数据表现稳定。
[*]可解释性：通过概率值直观解释分类效果。
只管其特征独立性假设在实际中大概不建立，但在文天职类、推荐体系、医疗诊断等场景中仍广泛应用。对于须要快速原型验证或资源受限的任务（如边沿盘算），它是理想选择。
贝叶斯公式 vs. 朴素贝叶斯公式

贝叶斯公式 vs. 朴素贝叶斯公式

1. 贝叶斯公式（Bayes’ Theorem）

贝叶斯公式是概率论中的核心定理，用于盘算条件概率，形貌在已知某些条件下事故发生的概率。
公式：
                                 P                      (                      A                      ∣                      B                      )                      =                                           P                            (                            B                            ∣                            A                            )                            ⋅                            P                            (                            A                            )                                              P                            (                            B                            )                                              P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}                P(A∣B)=P(B)P(B∣A)⋅P(A)
•                               P                      (                      A                      ∣                      B                      )                            P(A|B)                P(A∣B)：在事故B发生的条件下，事故A发生的概率（后验概率）。
•                               P                      (                      B                      ∣                      A                      )                            P(B|A)                P(B∣A)：在事故A发生的条件下，事故B发生的概率（似然概率）。
•                               P                      (                      A                      )                            P(A)                P(A) 和                                  P                      (                      B                      )                            P(B)                P(B)：事故A和B的先验概率（独立于其他事故的初始概率）。
核心作用：
贝叶斯公式是一个通用工具，用于根据已知信息更新事故的概率，广泛应用于统计学、呆板学习、医学诊断等范畴。
2. 朴素贝叶斯公式（Naive Bayes Formula）

朴素贝叶斯是基于贝叶斯公式的分类算法，其核心是对贝叶斯公式举行以下扩展和简化：
公式：
                                 P                      (                               C                         k                               ∣                      X                      )                      ∝                      P                      (                               C                         k                               )                      ⋅                               ∏                                     i                            =                            1                                  n                               P                      (                               x                         i                               ∣                               C                         k                               )                            P(C_k|X) \propto P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k)                P(Ck∣X)∝P(Ck)⋅i=1∏nP(xi∣Ck)
•                                           C                         k                                     C_k                Ck：种别标签（如“垃圾邮件”或“正常邮件”）。
•                               X                      =                      {                               x                         1                               ,                               x                         2                               ,                      .                      .                      .                      ,                               x                         n                               }                            X = \{x_1, x_2, ..., x_n\}                X={x1,x2,...,xn}：输入特征的聚集（如邮件中的单词）。
• 关键假设：所有特征                                     x                      i                               x_i             xi 在给定种别                                     C                      k                               C_k             Ck 时条件独立（即特征之间无干系性）。
核心作用：
通过最大化后验概率                            P                   (                            C                      k                            ∣                   X                   )                      P(C_k|X)             P(Ck∣X) 举行分类，实用于文天职类、推荐体系等任务。
两者的核心区别

维度贝叶斯公式朴素贝叶斯公式界说概率论中的通用定理，盘算条件概率。基于贝叶斯公式的分类算法，加入特征独立假设。应用场景所有须要条件概率的场景（如统计推断）。分类任务（如文天职类、垃圾邮件检测）。特征独立性不要求特征独立。强制假设特征条件独立（即“朴素”的泉源）。复杂度盘算连合概率 $P(XC_k)$ 困难（需全概率公式）。为什么叫“朴素”（Naive）？

朴素贝叶斯的“朴素”一词源于其特征条件独立假设。
• 实际中的特征通常干系：比方，在文天职类中，“足球”和“比赛”这两个词大概同时出如今体育类文章中，它们之间存在干系性。
• 模子的简化假设：朴素贝叶斯强制假设所有特征在给定种别时相互独立，即：
                                 P                      (                      X                      ∣                               C                         k                               )                      =                      P                      (                               x                         1                               ∣                               C                         k                               )                      ⋅                      P                      (                               x                         2                               ∣                               C                         k                               )                      ⋅                      .                      .                      .                      ⋅                      P                      (                               x                         n                               ∣                               C                         k                               )                            P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k)                P(X∣Ck)=P(x1∣Ck)⋅P(x2∣Ck)⋅...⋅P(xn∣Ck)
这一假设忽略了特征之间的关联性，简化了盘算，但在实际中大概不建立，因此被称为“朴素”（即“灵活”或“简化”的假设）。
为什么须要“朴素”假设？

只管特征独立性假设在实际中不肯定建立，但其带来的上风使得朴素贝叶斯在实践中广泛实用：

[*] 盘算高效：
• 直接盘算连合概率                                     P                         (                         X                         ∣                                     C                            k                                  )                               P(X|C_k)                   P(X∣Ck) 须要估计所有特征组合的大概性，复杂度为                                     O                         (                                     2                            n                                  )                               O(2^n)                   O(2n)。
• 通过独立性假设，复杂度低落为                                     O                         (                         n                         )                               O(n)                   O(n)，适合高维数据（如文本中的单词特征）。
[*] 克制数据奇怪题目：
• 假如特征维度高（如文天职类中数万词汇），连合概率                                     P                         (                         X                         ∣                                     C                            k                                  )                               P(X|C_k)                   P(X∣Ck) 的估计须要极大样本量。
• 独立性假设答应通过单个特征的概率估计组合得到效果。
[*] 对小样本数据友好：
• 纵然训练数据较少，也能通过独立假设快速构建模子。
示例分析

假设须要判定一封包罗“免费”和“中奖”的邮件是否为垃圾邮件：
• 贝叶斯公式：需盘算所有大概的特征组合（如“免费”和“中奖”同时出现的概率），复杂度高。
• 朴素贝叶斯：假设“免费”和“中奖”在给定种别时独立，直接盘算：
                                 P                      (                      垃圾邮件                      ∣                      免费, 中奖                      )                      ∝                      P                      (                      垃圾邮件                      )                      ⋅                      P                      (                      免费                      ∣                      垃圾邮件                      )                      ⋅                      P                      (                      中奖                      ∣                      垃圾邮件                      )                            P(\text{垃圾邮件}|\text{免费, 中奖}) \propto P(\text{垃圾邮件}) \cdot P(\text{免费}|\text{垃圾邮件}) \cdot P(\text{中奖}|\text{垃圾邮件})                P(垃圾邮件∣免费, 中奖)∝P(垃圾邮件)⋅P(免费∣垃圾邮件)⋅P(中奖∣垃圾邮件)
纵然“免费”和“中奖”在实际中干系，模子仍通过独立假设简化盘算。
总结

• 贝叶斯公式是概率论的基础工具，用于盘算条件概率。
• 朴素贝叶斯是贝叶斯公式在分类任务中的应用，通过特征独立假设简化盘算，代价是大概牺牲部门准确性。
• “朴素”一词反映了模子对实际世界的简化假设，但这种假设使得算法高效、易实现，成为文天职类等任务中的经典选择。
推荐

蒙牛50支随变组合蓝莓橙子麦片脆皮经典香草随变转巧克力冰淇淋
【在售价】158.00元
【得手价】98.00元
下单链接:https://p.pinduoduo.com/jXzerhzf

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

【呆板学习】逐日一讲-朴素贝叶斯公式