论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
虚拟化.超融合.云计算
›
虚拟化与私有云
›
机械学习—零基础学习日志(概率论总条记5) ...
机械学习—零基础学习日志(概率论总条记5)
怀念夏天
论坛元老
|
2024-9-13 23:39:55
|
显示全部楼层
|
阅读模式
楼主
主题
1005
|
帖子
1005
|
积分
3015
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
引言——“黑天鹅”
要得到95%以上置信度的统计效果,须要被统计的对象出现上千次,但是假如整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”?
古德-图灵折扣估计法
在词语统计中,有点词语固然是出现0次,但是实际的出现概率并不是永久不可能的零。
那须要把一些概率转移给到这些词语。
古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。
古德的这种做法被称为“古德-图灵折扣估计”,因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。
插值法
贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。
假如条件P(X|Y)本身比力大,它在新的概率估计中会占主导地位。假如P(X|Y)本身比力小,阐明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比力多,统计效果可信度会高一些。
插值法的英华在于,信赖那些见到次数比力多的统计效果,假如遇到统计数目不足时,就想法找一个可靠的统计效果来近似。
学习条记:《数学通识50讲》吴军 ——得到 ,概率论章节
墙裂推荐大家去学习《数学通识50讲》,吴军老师解说得超级超级好!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
怀念夏天
论坛元老
这个人很懒什么都没写!
楼主热帖
CVE-2017-12635 Couchdb 垂直权限绕过 ...
WEB安全基础入门—操作系统命令注入(s ...
Redis 原理 - Set
【牛客】8 企业真题
IOS手机Charles抓包
【手把手】光说不练假把式,这篇全链路 ...
java中Long和Integer缓存-128~127的简 ...
恭喜,成功入坑 GitHub 。。。 ...
map和flatMap的区别
数据库(Oracle 11g)使用expdp每周进 ...
标签云
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表