【呆板学习】逐日一讲-朴素贝叶斯公式
一、朴素贝叶斯公式详解朴素贝叶斯(Naive Bayes)是一种基于 贝叶斯定理 的分类算法,其核心思想是通过概率建模办理分类题目。它假设特征之间 相互独立(即“朴素”的由来),只管这一假设在实际中大概不建立,但能大幅简化盘算,并在实际任务中表现出色。
1. 贝叶斯定理基础
贝叶斯定理形貌了条件概率之间的关系:
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)
• P ( A ∣ B ) P(A|B) P(A∣B):在事故B发生的条件下,事故A发生的概率(后验概率)。
• P ( B ∣ A ) P(B|A) P(B∣A):在事故A发生的条件下,事故B发生的概率(似然概率)。
• P ( A ) P(A) P(A) 和 P ( B ) P(B) P(B):事故A和B的先验概率(独立于其他事故的初始概率)。
2. 从贝叶斯定理到分类任务
在分类题目中,给定输入特征 X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn},目的是找到最大概的种别 C k C_k Ck。根据贝叶斯定理,盘算条件概率:
P ( C k ∣ X ) = P ( X ∣ C k ) ⋅ P ( C k ) P ( X ) P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)} P(Ck∣X)=P(X)P(X∣Ck)⋅P(Ck)
由于分母 P ( X ) P(X) P(X) 对所有种别雷同,只需最大化分子:
P ( C k ∣ X ) ∝ P ( C k ) ⋅ P ( X ∣ C k ) P(C_k|X) \propto P(C_k) \cdot P(X|C_k) P(Ck∣X)∝P(Ck)⋅P(X∣Ck)
3. 特征独立性假设
朴素贝叶斯假设所有特征在给定种别时条件独立,因此:
P ( X ∣ C k ) = P ( x 1 ∣ C k ) ⋅ P ( x 2 ∣ C k ) ⋅ . . . ⋅ P ( x n ∣ C k ) = ∏ i = 1 n P ( x i ∣ C k ) P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k) = \prod_{i=1}^n P(x_i|C_k) P(X∣Ck)=P(x1∣Ck)⋅P(x2∣Ck)⋅...⋅P(xn∣Ck)=i=1∏nP(xi∣Ck)
终极分类公式为:
C ^ = arg max C k P ( C k ) ⋅ ∏ i = 1 n P ( x i ∣ C k ) \hat{C} = \arg\max_{C_k} P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k) C^=argCkmaxP(Ck)⋅i=1∏nP(xi∣Ck)
• C ^ \hat{C} C^:猜测的种别。
• P ( C k ) P(C_k) P(Ck):种别 C k C_k Ck 的先验概率(训练会合种别出现的频率)。
• P ( x i ∣ C k ) P(x_i|C_k) P(xi∣Ck):在种别 C k C_k Ck 下,特征 x i x_i xi 的条件概率。
4. 条件概率的估计
差别数据范例需接纳差别的概率分布模子:
数据范例模子公式实用场景离散特征(如文本词频)多项式朴素贝叶斯 P ( x i ) P(x_i) P(xi) ( C k ) (C_k) (Ck)= N x i , C k + α N C k + α n \frac{N_{x_i,C_k} + \alpha}{N_{C_k} + \alpha n} NCk+αnNxi,Ck+α一连特征(如温度)高斯朴素贝叶斯 P ( x i ) P(x_i) P(xi) ( C k ) (C_k) (Ck)= 1 2 π σ C k 2 e − ( x i − μ C k ) 2 2 σ C k 2 \frac{1}{\sqrt{2\pi\sigma_{C_k}^2}} e^{-\frac{(x_i - \mu_{C_k})^2}{2\sigma_{C_k}^2}} 2πσCk2 1e−2σCk2(xi−μCk)2二值特征(如是否出现)伯努利朴素贝叶斯 P ( x i ) P(x_i) P(xi) ( C k ) (C_k) (Ck) = p ⋅ x i + ( 1 − p ) ( 1 − x i ) p \cdot x_i + (1-p)(1 - x_i) p⋅xi+(1−p)(1−xi)• 平滑处置处罚(如拉普拉斯平滑):防止未出现的特征导致概率为0(比方, α = 1 \alpha=1 α=1 时为加1平滑)。二、在AI范畴的作用
1. 文天职类与自然语言处置处罚(NLP)
• 垃圾邮件检测:根据邮件中单词的频率盘算概率,比方“免费”“中奖”等词在垃圾邮件中概率更高。
• 情感分析:判定批评的情感极性(正面/负面),比方“精良”“糟糕”等词的条件概率差别。
• 消息分类:将消息按主题分类(如体育、科技),基于关键词(如“进球”“算法”)的条件概率。
2. 推荐体系
• 协同过滤:结适用户汗青行为(如点击、购买)和物品特征(如影戏范例),猜测用户爱好。
• 点击率猜测:根据用户特征(年事、性别)和广告内容,猜测广告被点击的概率。
3. 医疗与生物信息学
• 疾病诊断:根据症状(发烧、咳嗽)和查抄指标(白细胞计数),盘算患者患某类疾病的概率。
• 基因数据分析:基于基因突变位点和表达水平,猜测癌症亚型或药物反应。
4. 及时监控与异常检测
• 金融风控:通过交易业务金额、频率、地点等特征,识别信用卡欺诈行为。
• 工业物联网(IIoT):根据传感器数据(温度、振动),猜测装备故障概率。
5. 多模态数据处置处罚
• 图像分类:结合图像标签和像素统计特征(如颜色直方图),分类图像内容。
• 语音识别:基于声学特征(MFCC系数)和上下文词汇,识别语音内容。
三、推导过程示例(以文天职类为例)
假设训练数据包罗以下邮件及其标签:
邮件文本种别“免费 赢取 现金”垃圾邮件“集会 安排 附件”正常邮件“领取 奖品 如今”垃圾邮件“项目 更新 考核”正常邮件步调1:盘算先验概率
• P ( 垃圾邮件 ) = 2 4 = 0.5 P(\text{垃圾邮件}) = \frac{2}{4} = 0.5 P(垃圾邮件)=42=0.5
• P ( 正常邮件 ) = 2 4 = 0.5 P(\text{正常邮件}) = \frac{2}{4} = 0.5 P(正常邮件)=42=0.5
步调2:盘算条件概率
假设新邮件为 “免费 奖品”,统计各单词在种别中的出现频率(利用拉普拉斯平滑, α = 1 \alpha=1 α=1):
单词垃圾邮件中出现次数正常邮件中出现次数免费10奖品10赢取10现金10集会01安排01附件01领取10如今10项目01更新01考核01• 垃圾邮件下词汇总数:6(2封邮件,每封3词)
• P ( 免费 ∣ 垃圾邮件 ) = 1 + 1 6 + 12 = 2 18 = 0.111 P(\text{免费} | \text{垃圾邮件}) = \frac{1+1}{6+12} = \frac{2}{18} = 0.111 P(免费∣垃圾邮件)=6+121+1=182=0.111
• P ( 奖品 ∣ 垃圾邮件 ) = 1 + 1 6 + 12 = 0.111 P(\text{奖品} | \text{垃圾邮件}) = \frac{1+1}{6+12} = 0.111 P(奖品∣垃圾邮件)=6+121+1=0.111
• 正常邮件下词汇总数:6
• P ( 免费 ∣ 正常邮件 ) = 0 + 1 6 + 12 = 1 18 = 0.055 P(\text{免费} | \text{正常邮件}) = \frac{0+1}{6+12} = \frac{1}{18} = 0.055 P(免费∣正常邮件)=6+120+1=181=0.055
• P ( 奖品 ∣ 正常邮件 ) = 0 + 1 6 + 12 = 0.055 P(\text{奖品} | \text{正常邮件}) = \frac{0+1}{6+12} = 0.055 P(奖品∣正常邮件)=6+120+1=0.055
步调3:盘算连合概率
• 垃圾邮件: 0.5 × 0.111 × 0.111 = 0.0061 0.5 \times 0.111 \times 0.111 = 0.0061 0.5×0.111×0.111=0.0061
• 正常邮件: 0.5 × 0.055 × 0.055 = 0.0015 0.5 \times 0.055 \times 0.055 = 0.0015 0.5×0.055×0.055=0.0015
因此,邮件 “免费 奖品” 被分类为 垃圾邮件。
四、代码实现(Python)
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
# 训练数据
emails = [
("免费 赢取 现金", "垃圾邮件"),
("会议 安排 附件", "正常邮件"),
("领取 奖品 现在", "垃圾邮件"),
("项目 更新 审核", "正常邮件")
]
texts = for email in emails]
labels = for email in emails]
# 文本向量化(词袋模型)
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
X_train = vectorizer.fit_transform(texts)
# 训练模型(使用拉普拉斯平滑)
model = MultinomialNB(alpha=1)
model.fit(X_train, labels)
# 预测新邮件
new_email = ["免费 奖品"]
X_new = vectorizer.transform(new_email)
prediction = model.predict(X_new)
print(prediction)# 输出:['垃圾邮件']
五、总结
朴素贝叶斯是AI范畴的经典算法,其核心上风在于:
[*]高效性:盘算复杂度低,适合高维数据(如文天职类)。
[*]鲁棒性:对小规模数据或噪声数据表现稳定。
[*]可解释性:通过概率值直观解释分类效果。
只管其 特征独立性假设 在实际中大概不建立,但在文天职类、推荐体系、医疗诊断等场景中仍广泛应用。对于须要快速原型验证或资源受限的任务(如边沿盘算),它是理想选择。
贝叶斯公式 vs. 朴素贝叶斯公式
贝叶斯公式 vs. 朴素贝叶斯公式
1. 贝叶斯公式(Bayes’ Theorem)
贝叶斯公式是概率论中的核心定理,用于盘算 条件概率,形貌在已知某些条件下事故发生的概率。
公式:
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)
• P ( A ∣ B ) P(A|B) P(A∣B):在事故B发生的条件下,事故A发生的概率(后验概率)。
• P ( B ∣ A ) P(B|A) P(B∣A):在事故A发生的条件下,事故B发生的概率(似然概率)。
• P ( A ) P(A) P(A) 和 P ( B ) P(B) P(B):事故A和B的先验概率(独立于其他事故的初始概率)。
核心作用:
贝叶斯公式是一个通用工具,用于根据已知信息更新事故的概率,广泛应用于统计学、呆板学习、医学诊断等范畴。
2. 朴素贝叶斯公式(Naive Bayes Formula)
朴素贝叶斯是 基于贝叶斯公式的分类算法,其核心是对贝叶斯公式举行以下扩展和简化:
公式:
P ( C k ∣ X ) ∝ P ( C k ) ⋅ ∏ i = 1 n P ( x i ∣ C k ) P(C_k|X) \propto P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k) P(Ck∣X)∝P(Ck)⋅i=1∏nP(xi∣Ck)
• C k C_k Ck:种别标签(如“垃圾邮件”或“正常邮件”)。
• X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn}:输入特征的聚集(如邮件中的单词)。
• 关键假设:所有特征 x i x_i xi 在给定种别 C k C_k Ck 时 条件独立(即特征之间无干系性)。
核心作用:
通过最大化后验概率 P ( C k ∣ X ) P(C_k|X) P(Ck∣X) 举行分类,实用于文天职类、推荐体系等任务。
两者的核心区别
维度贝叶斯公式朴素贝叶斯公式界说概率论中的通用定理,盘算条件概率。基于贝叶斯公式的分类算法,加入特征独立假设。应用场景所有须要条件概率的场景(如统计推断)。分类任务(如文天职类、垃圾邮件检测)。特征独立性不要求特征独立。强制假设特征条件独立(即“朴素”的泉源)。复杂度盘算连合概率 $P(XC_k)$ 困难(需全概率公式)。 为什么叫“朴素”(Naive)?
朴素贝叶斯的“朴素”一词源于其 特征条件独立假设。
• 实际中的特征通常干系:比方,在文天职类中,“足球”和“比赛”这两个词大概同时出如今体育类文章中,它们之间存在干系性。
• 模子的简化假设:朴素贝叶斯强制假设所有特征在给定种别时相互独立,即:
P ( X ∣ C k ) = P ( x 1 ∣ C k ) ⋅ P ( x 2 ∣ C k ) ⋅ . . . ⋅ P ( x n ∣ C k ) P(X|C_k) = P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k) P(X∣Ck)=P(x1∣Ck)⋅P(x2∣Ck)⋅...⋅P(xn∣Ck)
这一假设忽略了特征之间的关联性,简化了盘算,但在实际中大概不建立,因此被称为“朴素”(即“灵活”或“简化”的假设)。
为什么须要“朴素”假设?
只管特征独立性假设在实际中不肯定建立,但其带来的上风使得朴素贝叶斯在实践中广泛实用:
[*] 盘算高效:
• 直接盘算连合概率 P ( X ∣ C k ) P(X|C_k) P(X∣Ck) 须要估计所有特征组合的大概性,复杂度为 O ( 2 n ) O(2^n) O(2n)。
• 通过独立性假设,复杂度低落为 O ( n ) O(n) O(n),适合高维数据(如文本中的单词特征)。
[*] 克制数据奇怪题目:
• 假如特征维度高(如文天职类中数万词汇),连合概率 P ( X ∣ C k ) P(X|C_k) P(X∣Ck) 的估计须要极大样本量。
• 独立性假设答应通过单个特征的概率估计组合得到效果。
[*] 对小样本数据友好:
• 纵然训练数据较少,也能通过独立假设快速构建模子。
示例分析
假设须要判定一封包罗“免费”和“中奖”的邮件是否为垃圾邮件:
• 贝叶斯公式:需盘算所有大概的特征组合(如“免费”和“中奖”同时出现的概率),复杂度高。
• 朴素贝叶斯:假设“免费”和“中奖”在给定种别时独立,直接盘算:
P ( 垃圾邮件 ∣ 免费, 中奖 ) ∝ P ( 垃圾邮件 ) ⋅ P ( 免费 ∣ 垃圾邮件 ) ⋅ P ( 中奖 ∣ 垃圾邮件 ) P(\text{垃圾邮件}|\text{免费, 中奖}) \propto P(\text{垃圾邮件}) \cdot P(\text{免费}|\text{垃圾邮件}) \cdot P(\text{中奖}|\text{垃圾邮件}) P(垃圾邮件∣免费, 中奖)∝P(垃圾邮件)⋅P(免费∣垃圾邮件)⋅P(中奖∣垃圾邮件)
纵然“免费”和“中奖”在实际中干系,模子仍通过独立假设简化盘算。
总结
• 贝叶斯公式是概率论的基础工具,用于盘算条件概率。
• 朴素贝叶斯是贝叶斯公式在分类任务中的应用,通过特征独立假设简化盘算,代价是大概牺牲部门准确性。
• “朴素”一词反映了模子对实际世界的简化假设,但这种假设使得算法高效、易实现,成为文天职类等任务中的经典选择。
推荐
蒙牛50支随变组合蓝莓橙子麦片脆皮经典香草随变转巧克力冰淇淋
【在售价】158.00元
【得手价】98.00元
下单链接:https://p.pinduoduo.com/jXzerhzf
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]