大连密封材料 发表于 2025-9-23 06:20:38

【呆板学习】逐日一讲-朴素贝叶斯公式

一、朴素贝叶斯公式详解

朴素贝叶斯(Naive Bayes)是一种基于 贝叶斯定理 的分类算法,其核心思想是通过概率建模办理分类题目。它假设特征之间 相互独立(即“朴素”的由来),只管这一假设在实际中大概不建立,但能大幅简化盘算,并在实际任务中表现出色。
1. 贝叶斯定理基础

贝叶斯定理形貌了条件概率之间的关系:
                                    P                         (                         A                         ∣                         B                         )                         =                                              P                               (                               B                               ∣                               A                               )                               ⋅                               P                               (                               A                               )                                                 P                               (                               B                               )                                                P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}                   P(A∣B)=P(B)P(B∣A)⋅P(A)​
•                                  P                         (                         A                         ∣                         B                         )                              P(A|B)                  P(A∣B):在事故B发生的条件下,事故A发生的概率(后验概率)。
•                                  P                         (                         B                         ∣                         A                         )                              P(B|A)                  P(B∣A):在事故A发生的条件下,事故B发生的概率(似然概率)。
•                                  P                         (                         A                         )                              P(A)                  P(A) 和                                    P                         (                         B                         )                              P(B)                  P(B):事故A和B的先验概率(独立于其他事故的初始概率)。
2. 从贝叶斯定理到分类任务

在分类题目中,给定输入特征                               X                      =                      {                               x                         1                              ,                               x                         2                              ,                      .                      .                      .                      ,                               x                         n                              }                        X = \{x_1, x_2, ..., x_n\}               X={x1​,x2​,...,xn​},目的是找到最大概的种别                                        C                         k                                  C_k               Ck​。根据贝叶斯定理,盘算条件概率:
                                    P                         (                                 C                            k                                  ∣                         X                         )                         =                                              P                               (                               X                               ∣                                           C                                  k                                          )                               ⋅                               P                               (                                           C                                  k                                          )                                                 P                               (                               X                               )                                                P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)}                   P(Ck​∣X)=P(X)P(X∣Ck​)⋅P(Ck​)​
由于分母                               P                      (                      X                      )                        P(X)               P(X) 对所有种别雷同,只需最大化分子:
                                    P                         (                                 C                            k                                  ∣                         X                         )                         ∝                         P                         (                                 C                            k                                  )                         ⋅                         P                         (                         X                         ∣                                 C                            k                                  )                               P(C_k|X) \propto P(C_k) \cdot P(X|C_k)                   P(Ck​∣X)∝P(Ck​)⋅P(X∣Ck​)
3. 特征独立性假设

朴素贝叶斯假设所有特征在给定种别时条件独立,因此:
                                    P                         (                         X                         ∣                                 C                            k                                  )                         =                         P                         (                                 x                            1                                  ∣                                 C                            k                                  )                         ⋅                         P                         (                                 x                            2                                  ∣                                 C                            k                                  )                         ⋅                         .                         .                         .                         ⋅                         P                         (                                 x                            n                                  ∣                                 C                            k                                  )                         =                                 ∏                                       i                               =                               1                                    n                                  P                         (                                 x                            i                                  ∣                                 C                            k                                  )                               P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k) = \prod_{i=1}^n P(x_i|C_k)                   P(X∣Ck​)=P(x1​∣Ck​)⋅P(x2​∣Ck​)⋅...⋅P(xn​∣Ck​)=i=1∏n​P(xi​∣Ck​)
终极分类公式为:
                                              C                            ^                                  =                         arg                         ⁡                                              max                               ⁡                                                 C                               k                                          P                         (                                 C                            k                                  )                         ⋅                                 ∏                                       i                               =                               1                                    n                                  P                         (                                 x                            i                                  ∣                                 C                            k                                  )                               \hat{C} = \arg\max_{C_k} P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k)                   C^=argCk​max​P(Ck​)⋅i=1∏n​P(xi​∣Ck​)
•                                              C                            ^                                       \hat{C}                  C^:猜测的种别。
•                                  P                         (                                 C                            k                                  )                              P(C_k)                  P(Ck​):种别                                        C                         k                                  C_k               Ck​ 的先验概率(训练会合种别出现的频率)。
•                                  P                         (                                 x                            i                                  ∣                                 C                            k                                  )                              P(x_i|C_k)                  P(xi​∣Ck​):在种别                                        C                         k                                  C_k               Ck​ 下,特征                                        x                         i                                  x_i               xi​ 的条件概率。
4. 条件概率的估计

差别数据范例需接纳差别的概率分布模子:
数据范例模子公式实用场景离散特征(如文本词频)多项式朴素贝叶斯                                             P                               (                                           x                                  i                                          )                                    P(x_i)                        P(xi​)                                             (                                           C                                  k                                          )                                    (C_k)                        (Ck​)=                                                                                     N                                                                     x                                              i                                                          ,                                                         C                                              k                                                                               +                                     α                                                                         N                                                       C                                           k                                                                +                                     α                                     n                                                             \frac{N_{x_i,C_k} + \alpha}{N_{C_k} + \alpha n}                        NCk​​+αnNxi​,Ck​​+α​一连特征(如温度)高斯朴素贝叶斯                                             P                               (                                           x                                  i                                          )                                    P(x_i)                        P(xi​)                                             (                                           C                                  k                                          )                                    (C_k)                        (Ck​)=                                                         1                                                             2                                        π                                                       σ                                                         C                                              k                                                          2                                                                                             e                                             −                                                                  (                                                         x                                              i                                                          −                                                         μ                                                               C                                                 k                                                                                          )                                              2                                                                                    2                                                         σ                                                               C                                                 k                                                            2                                                                                                       \frac{1}{\sqrt{2\pi\sigma_{C_k}^2}} e^{-\frac{(x_i - \mu_{C_k})^2}{2\sigma_{C_k}^2}}                        2πσCk​2​                      ​1​e−2σCk​2​(xi​−μCk​​)2​二值特征(如是否出现)伯努利朴素贝叶斯                                             P                               (                                           x                                  i                                          )                                    P(x_i)                        P(xi​)                                             (                                           C                                  k                                          )                                    (C_k)                        (Ck​) =                                              p                               ⋅                                           x                                  i                                          +                               (                               1                               −                               p                               )                               (                               1                               −                                           x                                  i                                          )                                    p \cdot x_i + (1-p)(1 - x_i)                        p⋅xi​+(1−p)(1−xi​)• 平滑处置处罚(如拉普拉斯平滑):防止未出现的特征导致概率为0(比方,                                             α                               =                               1                                    \alpha=1                        α=1 时为加1平滑)。二、在AI范畴的作用

1. 文天职类与自然语言处置处罚(NLP)

• 垃圾邮件检测:根据邮件中单词的频率盘算概率,比方“免费”“中奖”等词在垃圾邮件中概率更高。
• 情感分析:判定批评的情感极性(正面/负面),比方“精良”“糟糕”等词的条件概率差别。
• 消息分类:将消息按主题分类(如体育、科技),基于关键词(如“进球”“算法”)的条件概率。
2. 推荐体系

• 协同过滤:结适用户汗青行为(如点击、购买)和物品特征(如影戏范例),猜测用户爱好。
• 点击率猜测:根据用户特征(年事、性别)和广告内容,猜测广告被点击的概率。
3. 医疗与生物信息学

• 疾病诊断:根据症状(发烧、咳嗽)和查抄指标(白细胞计数),盘算患者患某类疾病的概率。
• 基因数据分析:基于基因突变位点和表达水平,猜测癌症亚型或药物反应。
4. 及时监控与异常检测

• 金融风控:通过交易业务金额、频率、地点等特征,识别信用卡欺诈行为。
• 工业物联网(IIoT):根据传感器数据(温度、振动),猜测装备故障概率。
5. 多模态数据处置处罚

• 图像分类:结合图像标签和像素统计特征(如颜色直方图),分类图像内容。
• 语音识别:基于声学特征(MFCC系数)和上下文词汇,识别语音内容。
三、推导过程示例(以文天职类为例)

假设训练数据包罗以下邮件及其标签:
邮件文本种别“免费 赢取 现金”垃圾邮件“集会 安排 附件”正常邮件“领取 奖品 如今”垃圾邮件“项目 更新 考核”正常邮件步调1:盘算先验概率
•                               P                      (                      垃圾邮件                      )                      =                               2                         4                              =                      0.5                        P(\text{垃圾邮件}) = \frac{2}{4} = 0.5               P(垃圾邮件)=42​=0.5
•                               P                      (                      正常邮件                      )                      =                               2                         4                              =                      0.5                        P(\text{正常邮件}) = \frac{2}{4} = 0.5               P(正常邮件)=42​=0.5
步调2:盘算条件概率
假设新邮件为 “免费 奖品”,统计各单词在种别中的出现频率(利用拉普拉斯平滑,                              α                      =                      1                        \alpha=1               α=1):
单词垃圾邮件中出现次数正常邮件中出现次数免费10奖品10赢取10现金10集会01安排01附件01领取10如今10项目01更新01考核01• 垃圾邮件下词汇总数:6(2封邮件,每封3词)
•                               P                      (                      免费                      ∣                      垃圾邮件                      )                      =                                       1                            +                            1                                          6                            +                            12                                       =                               2                         18                              =                      0.111                        P(\text{免费} | \text{垃圾邮件}) = \frac{1+1}{6+12} = \frac{2}{18} = 0.111               P(免费∣垃圾邮件)=6+121+1​=182​=0.111
•                               P                      (                      奖品                      ∣                      垃圾邮件                      )                      =                                       1                            +                            1                                          6                            +                            12                                       =                      0.111                        P(\text{奖品} | \text{垃圾邮件}) = \frac{1+1}{6+12} = 0.111               P(奖品∣垃圾邮件)=6+121+1​=0.111
• 正常邮件下词汇总数:6
•                               P                      (                      免费                      ∣                      正常邮件                      )                      =                                       0                            +                            1                                          6                            +                            12                                       =                               1                         18                              =                      0.055                        P(\text{免费} | \text{正常邮件}) = \frac{0+1}{6+12} = \frac{1}{18} = 0.055               P(免费∣正常邮件)=6+120+1​=181​=0.055
•                               P                      (                      奖品                      ∣                      正常邮件                      )                      =                                       0                            +                            1                                          6                            +                            12                                       =                      0.055                        P(\text{奖品} | \text{正常邮件}) = \frac{0+1}{6+12} = 0.055               P(奖品∣正常邮件)=6+120+1​=0.055
步调3:盘算连合概率
• 垃圾邮件:                              0.5                      ×                      0.111                      ×                      0.111                      =                      0.0061                        0.5 \times 0.111 \times 0.111 = 0.0061               0.5×0.111×0.111=0.0061
• 正常邮件:                              0.5                      ×                      0.055                      ×                      0.055                      =                      0.0015                        0.5 \times 0.055 \times 0.055 = 0.0015               0.5×0.055×0.055=0.0015
因此,邮件 “免费 奖品” 被分类为 垃圾邮件。
四、代码实现(Python)

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# 训练数据
emails = [
    ("免费 赢取 现金", "垃圾邮件"),
    ("会议 安排 附件", "正常邮件"),
    ("领取 奖品 现在", "垃圾邮件"),
    ("项目 更新 审核", "正常邮件")
]
texts = for email in emails]
labels = for email in emails]

# 文本向量化(词袋模型)
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
X_train = vectorizer.fit_transform(texts)

# 训练模型(使用拉普拉斯平滑)
model = MultinomialNB(alpha=1)
model.fit(X_train, labels)

# 预测新邮件
new_email = ["免费 奖品"]
X_new = vectorizer.transform(new_email)
prediction = model.predict(X_new)
print(prediction)# 输出:['垃圾邮件']
五、总结

朴素贝叶斯是AI范畴的经典算法,其核心上风在于:

[*]高效性:盘算复杂度低,适合高维数据(如文天职类)。
[*]鲁棒性:对小规模数据或噪声数据表现稳定。
[*]可解释性:通过概率值直观解释分类效果。
只管其 特征独立性假设 在实际中大概不建立,但在文天职类、推荐体系、医疗诊断等场景中仍广泛应用。对于须要快速原型验证或资源受限的任务(如边沿盘算),它是理想选择。
贝叶斯公式 vs. 朴素贝叶斯公式​

贝叶斯公式 vs. 朴素贝叶斯公式

1. 贝叶斯公式(Bayes’ Theorem)

贝叶斯公式是概率论中的核心定理,用于盘算 条件概率,形貌在已知某些条件下事故发生的概率。
公式:
                                    P                         (                         A                         ∣                         B                         )                         =                                              P                               (                               B                               ∣                               A                               )                               ⋅                               P                               (                               A                               )                                                 P                               (                               B                               )                                                P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}                   P(A∣B)=P(B)P(B∣A)⋅P(A)​
•                                  P                         (                         A                         ∣                         B                         )                              P(A|B)                  P(A∣B):在事故B发生的条件下,事故A发生的概率(后验概率)。
•                                  P                         (                         B                         ∣                         A                         )                              P(B|A)                  P(B∣A):在事故A发生的条件下,事故B发生的概率(似然概率)。
•                                  P                         (                         A                         )                              P(A)                  P(A) 和                                    P                         (                         B                         )                              P(B)                  P(B):事故A和B的先验概率(独立于其他事故的初始概率)。
核心作用:
贝叶斯公式是一个通用工具,用于根据已知信息更新事故的概率,广泛应用于统计学、呆板学习、医学诊断等范畴。
2. 朴素贝叶斯公式(Naive Bayes Formula)

朴素贝叶斯是 基于贝叶斯公式的分类算法,其核心是对贝叶斯公式举行以下扩展和简化:
公式:
                                    P                         (                                 C                            k                                  ∣                         X                         )                         ∝                         P                         (                                 C                            k                                  )                         ⋅                                 ∏                                       i                               =                               1                                    n                                  P                         (                                 x                            i                                  ∣                                 C                            k                                  )                               P(C_k|X) \propto P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k)                   P(Ck​∣X)∝P(Ck​)⋅i=1∏n​P(xi​∣Ck​)
•                                              C                            k                                       C_k                  Ck​:种别标签(如“垃圾邮件”或“正常邮件”)。
•                                  X                         =                         {                                 x                            1                                  ,                                 x                            2                                  ,                         .                         .                         .                         ,                                 x                            n                                  }                              X = \{x_1, x_2, ..., x_n\}                  X={x1​,x2​,...,xn​}:输入特征的聚集(如邮件中的单词)。
• 关键假设:所有特征                                        x                         i                                  x_i               xi​ 在给定种别                                        C                         k                                  C_k               Ck​ 时 条件独立(即特征之间无干系性)。
核心作用:
通过最大化后验概率                               P                      (                               C                         k                              ∣                      X                      )                        P(C_k|X)               P(Ck​∣X) 举行分类,实用于文天职类、推荐体系等任务。
两者的核心区别

维度贝叶斯公式朴素贝叶斯公式界说概率论中的通用定理,盘算条件概率。基于贝叶斯公式的分类算法,加入特征独立假设。应用场景所有须要条件概率的场景(如统计推断)。分类任务(如文天职类、垃圾邮件检测)。特征独立性不要求特征独立。强制假设特征条件独立(即“朴素”的泉源)。复杂度盘算连合概率 $P(XC_k)$ 困难(需全概率公式)。 为什么叫“朴素”(Naive)?

朴素贝叶斯的“朴素”一词源于其 特征条件独立假设。
• 实际中的特征通常干系:比方,在文天职类中,“足球”和“比赛”这两个词大概同时出如今体育类文章中,它们之间存在干系性。
• 模子的简化假设:朴素贝叶斯强制假设所有特征在给定种别时相互独立,即:
                                    P                         (                         X                         ∣                                 C                            k                                  )                         =                         P                         (                                 x                            1                                  ∣                                 C                            k                                  )                         ⋅                         P                         (                                 x                            2                                  ∣                                 C                            k                                  )                         ⋅                         .                         .                         .                         ⋅                         P                         (                                 x                            n                                  ∣                                 C                            k                                  )                               P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k)                   P(X∣Ck​)=P(x1​∣Ck​)⋅P(x2​∣Ck​)⋅...⋅P(xn​∣Ck​)
这一假设忽略了特征之间的关联性,简化了盘算,但在实际中大概不建立,因此被称为“朴素”(即“灵活”或“简化”的假设)。
为什么须要“朴素”假设?

只管特征独立性假设在实际中不肯定建立,但其带来的上风使得朴素贝叶斯在实践中广泛实用:

[*] 盘算高效:
• 直接盘算连合概率                                       P                            (                            X                            ∣                                       C                               k                                    )                                  P(X|C_k)                     P(X∣Ck​) 须要估计所有特征组合的大概性,复杂度为                                       O                            (                                       2                               n                                    )                                  O(2^n)                     O(2n)。
• 通过独立性假设,复杂度低落为                                       O                            (                            n                            )                                  O(n)                     O(n),适合高维数据(如文本中的单词特征)。
[*] 克制数据奇怪题目:
• 假如特征维度高(如文天职类中数万词汇),连合概率                                       P                            (                            X                            ∣                                       C                               k                                    )                                  P(X|C_k)                     P(X∣Ck​) 的估计须要极大样本量。
• 独立性假设答应通过单个特征的概率估计组合得到效果。
[*] 对小样本数据友好:
• 纵然训练数据较少,也能通过独立假设快速构建模子。
示例分析

假设须要判定一封包罗“免费”和“中奖”的邮件是否为垃圾邮件:
• 贝叶斯公式:需盘算所有大概的特征组合(如“免费”和“中奖”同时出现的概率),复杂度高。
• 朴素贝叶斯:假设“免费”和“中奖”在给定种别时独立,直接盘算:
                                    P                         (                         垃圾邮件                         ∣                         免费, 中奖                         )                         ∝                         P                         (                         垃圾邮件                         )                         ⋅                         P                         (                         免费                         ∣                         垃圾邮件                         )                         ⋅                         P                         (                         中奖                         ∣                         垃圾邮件                         )                               P(\text{垃圾邮件}|\text{免费, 中奖}) \propto P(\text{垃圾邮件}) \cdot P(\text{免费}|\text{垃圾邮件}) \cdot P(\text{中奖}|\text{垃圾邮件})                   P(垃圾邮件∣免费, 中奖)∝P(垃圾邮件)⋅P(免费∣垃圾邮件)⋅P(中奖∣垃圾邮件)
纵然“免费”和“中奖”在实际中干系,模子仍通过独立假设简化盘算。
总结

• 贝叶斯公式是概率论的基础工具,用于盘算条件概率。
• 朴素贝叶斯是贝叶斯公式在分类任务中的应用,通过特征独立假设简化盘算,代价是大概牺牲部门准确性。
• “朴素”一词反映了模子对实际世界的简化假设,但这种假设使得算法高效、易实现,成为文天职类等任务中的经典选择。
推荐

蒙牛50支随变组合蓝莓橙子麦片脆皮经典香草随变转巧克力冰淇淋
【在售价】158.00元
【得手价】98.00元
下单链接:https://p.pinduoduo.com/jXzerhzf

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【呆板学习】逐日一讲-朴素贝叶斯公式