马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
一、TF-IDF简介
1.意义
TF-IDF(Term Frequency-Inverse Document Frequency)是一种在文本发掘中广泛利用的特性向量化方法,用于评估一个词语对于一个文件集或一个语料库中的此中一份文件的紧张程度。TF-IDF的紧张头脑是:假如某个词语或短语在一篇文章中出现的频率(TF,Term Frequency)高,而且在其他文章中很少出现(即IDF,Inverse Document Frequency,逆文档频率高),则以为这个词大概短语具有很好的种别区分本事,适适用来分类。
2.TF与IDF
1).TF(Term Frequency)
TF即词频,是指某个词语在文章中出现的次数。这个数字通常会被归一化(一样寻常是词频除以文章总词数),以防止它方向长的文件。
TF的盘算公式为:
词频 ( T F ) = 某个词在文章中出现的次数 文章的总次数 词频(TF) = \frac{某个词在文章中出现的次数}{文章的总次数} 词频(TF)=文章的总次数某个词在文章中出现的次数
2).IDF(Inverse Document Frequency)
IDF即逆文档频率,其紧张头脑是:假如包罗某个词语的文档越少,则IDF越大,阐明这个词语具有很好的种别区分本事。
IDF的盘算公式为:
I D F ( t ) = l o g N d f ( t ) + 1 IDF(t)=log\frac{N}{df(t)+1} IDF(t)=logdf
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |