利用Python分析txt文本中的关键词频率与词汇和句子指标占比 ...

宁睿  金牌会员 | 2024-6-13 20:13:03 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 876|帖子 876|积分 2638

在数据分析和天然语言处置惩罚的过程中,关键词的提取和统计是一个重要的步调,特别是在分析政策文件、经济报告或其他涉及复杂信息的文本时。本文将介绍怎样使用Python进行中文文本中的关键词统计,将关注政策相关和不确定性相关的关键词出现频率。通过这样的分析,可以展现文本中政策导向和不确定性因素的分布情况,从而为进一步的经济分析和决策提供数据支持。
(一)Python分析文本中的不确定性关键词频率

工具与库的使用
本文使用了以下几个Python库:
  1. jieba:一个强大的中文分词库,用于将连续的文本切分成词汇。
  2. hanziconv:一个汉字转换库,用于在繁体字和简体字之间进行转换。
  3. os:用于文件路径操作和读取文件。
复制代码
分析步调
(1)关键词定义:首先,定义政策相关和不确定性相关的关键词列表。这些关键词是我们感兴趣的内容,在文本中提及的频率可以反映出政策导向和不确定性因素。
(2)文本读取与预处置惩罚:从指定的文件路径读取文本,并将其中的繁体字转换为简体字,确保分词和关键词统计的一致性。
(3)文本分词:使用jieba库对文本进行分词处置惩罚,将一连的文本切分成单个的词汇。
(4)关键词统计:遍历分词后的词汇,统计每个关键词出现的次数,并计算其在总词汇中的占比。
(5)结果输出:输出总词组数、政策关键词出现次数及其占比、不确定性关键词出现次数及其占比。
以下是具体的代码实现:
  1. import jieba  # 导入分词库
  2. from hanziconv import HanziConv  # 导入汉字转换库
  3. # 定义政策相关和不确定性相关的关键词列表
  4. policy_keywords = ["市政", "政策", "货币政策", "政策鼓励", "国家", "扩内需",
  5.                    "保增长", "促发展", "产业发展", "法律", "法规", "国民经济", "有关部门",
  6.                    "产业结构", "产业结构调整", "财政", "税收", "所得税", "增值税",
  7.                    "税收减免", "税收优惠", "刺激政策", "限贷令", "限购令", "保障房",
  8.                    "宏观调控", "政府", "当局", "国务院", "中央政府", "当地政府", "证监会",
  9.                    "政治", "军事", "宏观", "国家政策", "政策环境", "经济政策", "政策走势"]
  10. uncertainty_keywords = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
  11.                         "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
  12.                         "不寻常", "错综复杂", "非常复杂"]
  13. # 设置文件路径并读取文件
  14. file_path = 'C:\\Users\\Desktop\\1.txt'
  15. with open(file_path, 'r', encoding='utf-8') as file:
  16.     text = file.read()
  17. text = HanziConv.toSimplified(text)  # 将文本中的繁体字转换为简体字
  18. words = list(jieba.cut(text))  # 文本进行分词
  19. total_words = len(words)  # 统计总的词组数量
  20. # 初始化关键词计数字典
  21. policy_counts = {key: 0 for key in policy_keywords}
  22. uncertainty_counts = {key: 0 for key in uncertainty_keywords}
  23. # 遍历所有词汇,统计关键词出现的次数
  24. for word in words:
  25.     if word in policy_counts:
  26.         policy_counts[word] += 1
  27.     if word in uncertainty_counts:
  28.         uncertainty_counts[word] += 1
  29. # 计算关键词的占比
  30. policy_ratio = sum(policy_counts.values()) / total_words * 100  # 计算政策关键词的占比
  31. uncertainty_ratio = sum(uncertainty_counts.values()) / total_words * 100  # 计算不确定性关键词的占比
  32. # 输出统计结果
  33. print("总词组数:", total_words)
  34. print("政策关键词出现次数:", policy_counts)
  35. print("政策关键词占比:", f"{policy_ratio:.2f}%")
  36. print("不确定性关键词出现次数:", uncertainty_counts)
  37. print("不确定性关键词占比:", f"{uncertainty_ratio:.2f}%")
复制代码
(二)Python分析文本中的不确定性词汇和句子指标占比

分析步调:
(1)环境准备和库的导入
安装必要的库:确保安装了 jieba 和 hanziconv。这两个库分别用于中文分词和中文繁简转换。
导入库:在 Python 脚本中导入所需的库。
(2)文本数据的加载和预处置惩罚
加载文本数据:从文件或其他数据源读取文本。
文本预处置惩罚:包罗繁简转换、去除非文字和标点符号,以及分词。
  1. def text_preprocess(text):
  2.     text = HanziConv.toSimplified(text)  # 繁转简
  3.     text = ''.join(e for e in text if e.isalnum() or e.isspace())  # 清理文本
  4.     words = list(jieba.cut(text))  # 分词
  5.     return words
复制代码
(3)分析经济政策不确定性
定义不确定性相关词汇:列出与经济政策不确定性相关的关键词汇。
计算不确定性词汇占比(EPUW):统计这些词汇在文本中的出现频率,以此衡量不确定性的程度。
  1. def calculate_EPUW(words):
  2.     uncertainty_words = [...]
  3.     num_uncertainty = sum(word in uncertainty_words for word in words)
  4.     EPUW = num_uncertainty / len(words) if words else 0
  5.     return EPUW
复制代码
(4)进一步分析句子中的不确定性(EPUS)
句子级分析:将文本分割成句子,并分析每句中是否含有不确定性词汇。
计算不确定性句子占比:比较含有不确定性词汇的句子与总句子数的比例。
  1. def calculate_EPUS(text):
  2.     sentences = text.split('。')
  3.     num_uncertainty_sentences = sum(any(word in s for word in uncertainty_words) for s in sentences)
  4.     EPUS = num_uncertainty_sentences / len(sentences) if sentences else 0
  5.     return EPUS
复制代码
以下是具体的代码实现:
  1. import jieba  # 导入分词库
  2. from hanziconv import HanziConv  # 导入汉字转换库
  3. # 文本预处理函数:去除停用词、标点符号等,并进行分词处理
  4. def text_preprocess(text):
  5.     # 去除标点符号和特殊字符
  6.     text = ''.join(e for e in text if e.isalnum() or e.isspace())
  7.     # 分词处理
  8.     words = list(jieba.cut(text))
  9.     return words
  10. # 经济政策不确定性词汇占比计算函数
  11. def calculate_EPUW(text):
  12.     words = text_preprocess(text)  # 文本预处理
  13.     total_words = len(words)  # 计算总词数
  14.     uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
  15.                         "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
  16.                         "不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇
  17.     num_uncertainty = sum(word in uncertainty_words for word in words)  # 统计文本中不确定性词汇的数量
  18.     EPUW = num_uncertainty / total_words if total_words > 0 else 0  # 计算经济政策不确定性词汇占比
  19.     return EPUW
  20. # 经济政策不确定性句子占比计算函数
  21. def calculate_EPUS(text):
  22.     sentences = text.split('。')  # 将文本按句分割
  23.     total_sentences = len(sentences)  # 计算总句数
  24.     uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定",
  25.                         "波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定",
  26.                         "不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇
  27.     num_uncertainty_sentences = sum(any(word in sentence for word in uncertainty_words) for sentence in sentences)  # 统计文本中包含不确定性词汇的句子数量
  28.     EPUS = num_uncertainty_sentences / total_sentences if total_sentences > 0 else 0  # 计算经济政策不确定性感知指标
  29.     return EPUS
  30. # 读取文本文件并进行简体中文转换
  31. file_path = 'C:\\Users\\Desktop\\1.txt'
  32. with open(file_path, 'r', encoding='utf-8') as file:
  33.     text = file.read()
  34. text = HanziConv.toSimplified(text)
  35. # 计算经济政策不确定性词汇占比
  36. EPUW = calculate_EPUW(text)
  37. print("经济政策不确定性词汇指标占比(EPUW):", EPUW)
  38. # 计算经济政策不确定性感知指标
  39. EPUS = calculate_EPUS(text)
  40. print("经济政策不确定性句子指标占比(EPUS):", EPUS)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宁睿

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表