怀念夏天 发表于 2024-9-13 23:39:55

机械学习—零基础学习日志(概率论总条记5)

引言——“黑天鹅”

要得到95%以上置信度的统计效果,须要被统计的对象出现上千次,但是假如整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”?
古德-图灵折扣估计法

在词语统计中,有点词语固然是出现0次,但是实际的出现概率并不是永久不可能的零。
那须要把一些概率转移给到这些词语。
古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。
古德的这种做法被称为“古德-图灵折扣估计”,因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。
插值法

贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。
假如条件P(X|Y)本身比力大,它在新的概率估计中会占主导地位。假如P(X|Y)本身比力小,阐明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比力多,统计效果可信度会高一些。
插值法的英华在于,信赖那些见到次数比力多的统计效果,假如遇到统计数目不足时,就想法找一个可靠的统计效果来近似。

学习条记:《数学通识50讲》吴军 ——得到 ,概率论章节
墙裂推荐大家去学习《数学通识50讲》,吴军老师解说得超级超级好!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 机械学习—零基础学习日志(概率论总条记5)