锦通 发表于 2025-11-11 00:55:10

自然语言处置惩罚之jieba分词和TF-IDF分析

jieba分词和TF-IDF分析



1 jieba

1.1 简介

结巴分词(Jieba)是一个广泛使用的中文分词Python库,它支持多种分词模式,而且可以添加自界说辞书来进步分词的精确性。
1.2 终端下载

pip install jieba
1.3 根本语法


[*]jieba.lcut(sentence=切分语句变量),会根据自带的辞书举行切分
[*]jieba.add_word(‘词句’),添加词句到辞书,之后会以此切分
[*]jieba.load_userdict(‘文件’),文件添加到辞书,文件须要一词一行
代码展示:
import jieba
w1 = '我们在学习python办公自动化'
w2 = jieba.lcut(sentence=w1)
print(w2)
jieba.add_word('python办公自动化')
w3 = jieba.lcut(sentence=w1)
print(w3)
w4 = '我在想你,在今天的风里。'
w5 = jieba.lcut(sentence=w4)
print(w5)
jieba.load_userdict(r'.\dic.txt')
w4 = '我在想你,在今天的风里。'
w6 = jieba.lcut(sentence=w4)
print(w6)
运行效果:
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvMjEzYjVhYmY4ODYyNDBjM2JjODYzZmE4ODMwOTllZjIucG5n
2 TF-IDF分析

2.1 什么是语料库

(1)语料库中存放的是在语言的现实使用中真实出现过的语言质料;
(2)语料库是以电子盘算机为载体承载语言知识的底子资源;
(3)真实语料须要颠末加工(分析和处置惩罚),才华成为有效的资源。
2.2 TF

指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一样寻常是词频除以文章总词数),以防止它方向长的文件。
TF=某个词在文章中的出现次数/文章总词数
2.3 IDF

逆向文档频率。IDF的重要头脑是:如果包罗词条t的文档越少,IDF越大,则阐明词条具有很好的种别区分本领。
IDF=log(语料库文档总数/(含该词条的文档数+1))
2.4 TF-IDF

TF-IDF倾向于过滤掉常见的词语,保存紧张的词语。TF-IDF越高,越紧张。
TF -IDF = 词频(TF)x 逆文档频率(IDF)
2.5 函数导入

from sklearn.feature_extraction.text import TfidfVectorizer
2.6 方法


[*]tfi =TfidfVectorizer()引用函数
[*]tfi.fit_transform(words),按序次获取文章词汇的TF-IDF
[*]tfi.get_feature_names_out(),按序次切分的文章词汇
3 现实测试

3.1 题目分析

数据如下,此中一活动一篇文章,词汇序次非文章序次,而是词汇分列序次。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvOTRlYWY3N2MyOTI1NGQ2YWExZDBhOGZhNGM0ZGYwZjAucG5n
3.2 代码测试

代码展示:
import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer
f = open('task2_1.txt')words = f.readlines()tfi =TfidfVectorizer()tfi_words = tfi.fit_transform(words)print(tfi_words)wordslist = tfi.get_feature_names_out()print(wordslist)df = pd.DataFrame(tfi_words.T.todense(),index=wordslist)print(df)featurelist = df.iloc[:,5].to_list()res = {}for i in range(0,len(wordslist)):    res] = featurelistres = sorted(res.items(),key=lambda x:x,reverse=True)print(res)print(res)运行效果:
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNjEyN2U0NWMzNDk4NDE5ODg5NmRlMTVlMmM4ODIyYWEucG5n

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 自然语言处置惩罚之jieba分词和TF-IDF分析