03_NLP常用的文本数据分析处理方法

前进之路 · 2025-3-12 13:06:30

文本数据分析

1.配景

文本数据分析，也称为文本发掘或文本分析，是指**从非结构化的文本数据中提取有价值的信息、模式和看法的过程。**随着互联网和社交媒体的快速发展，文本数据变得越来越丰富，掌握文本数据分析技术对于许多范畴都至关重要。

2.常用的文本数据分析方法

数据标签分布
句子长度分布
词频统计
关键词词云

语料数据介绍

数据来源:中文酒店评论语料
结构:sentence,label
- sentence:用户评论
- label:1对应积极情绪,0代表消极情绪
=========================================================
目的:使用以上数据,介绍常用的几种文本数据分析方法

复制代码

部门数据展示

sentencelabel早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好,餐厅不分吸烟区.房间不分有无烟房.0去的时候 ,酒店大厅和餐厅在装修,感觉大厅有点挤.由于餐厅装修本来该享受的早饭,也没有享受(他们是8点开始每个房间送,但是我时间来不及了)不过前台服务员态度好!1有很长时间没有在西藏大厦住了，从前去北京在这里住的较多。这次住进来发现换了液晶电视，但网络不是很好，他们本身说是收费的原因造成的。别的还好。1……

1.数据标签分布

应用于分类问题,用来检察各种别对应的样本数量的分布,检察是否存在样本种别不平衡问题

作用
- 相识数据集中各种别的平衡性
- 指导模子训练
- 选择符合的评估指标
- 指导数据加强或重采样
用到的技术栈
利用sns.countplot()统计label标签的0,1分布数量
- sns.countplot()介绍
  seaborn.countplot() 是 seaborn 库中用于可视化种别型变量分布的常用函数,它可以快速绘制每个种别的观测数量
  焦点功能
  - 自动计数：自动统计每个种别的样本数量，无需手动盘算
  - 分类展示：直观展示离散型变量（如性别、国家、产品种别）的分布
  - 横向/纵向：支持水平 (orient=‘h’) 或垂直 (orient=‘v’) 表现
  - 多级分类：可通过 hue 参数添加次级分类维度
  参数列表
  1. sns.countplot(
  2. x=None, # 指定x轴变量（垂直条形图）
  3. y=None, # 指定y轴变量（水平条形图）
  4. hue=None, # 次级分类变量
  5. data=None, # 输入数据（DataFrame或数组）
  6. order=None, # 控制主分类顺序
  7. hue_order=None, # 控制次级分类顺序
  8. palette=None, # 颜色方案
  9. ax=None, # matplotlib轴对象
  10. **kwargs # 其他matplotlib参数
  11. )
  复制代码
实今世码

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
# todo:1- 获取标签数量分布
def dm_label_sns_count_plot():
# 1. 设置显示风格
plt.style.use('fivethirtyeight')
# 2. 读取训练集,验证集数据
train_data = pd.read_csv(filepath_or_buffer='./data/train.tsv', sep='\t')
dev_data = pd.read_csv(filepath_or_buffer='./data/dev.tsv', sep='\t')
# 3.统计label标签的0,1分组数量
sns.countplot(data=train_data, x='label')
plt.title('train_label')
plt.show()
# 4.统计验证集上标签数量分布
sns.countplot(data=dev_data, x='label')
plt.title('dev_label')
plt.show()

复制代码

部门效果展示

2.句子长度分布

概念:指数据集中各个句子的长度（通常以词语数量来衡量）的分布环境,相识句子的是非特征

作用
- 相识文本数据的特征
- 指导模子输入长度设置
- 指导预处理
- **发现非常值:**某些极短或极长的句子可能是非常值，需要进行处理。
思路分析
- 获取句子长度分布
什么是句子长度分布? 求长度为50的有多少个长度51的有多少个长度为52的有多少个
- 设置表现风格: plt.style.use('fivethirtyeight')
- 读取数据集: pd.read_csv
- 新增数据长度列: train_data['sentence_length']
- 绘制数据长度分布柱状图 : sns.countplot

def dm_len_sns_countplot_distplot():
# 1 设置显示风格plt.style.use('fivethirtyeight')
plt.style.use('fivethirtyeight')
# 2 pd.read_csv 读训练集验证集数据
train_data = pd.read_csv(filepath_or_buffer='data/train.tsv', sep='\t')
dev_data = pd.read_csv(filepath_or_buffer='data/dev.tsv', sep='\t')
# 3 求数据长度列然后求数据长度的分布
# map(func, *iterables): 对可迭代对象中的每个元素应用到指定的函数上, 返回一个迭代器对象
# list(map(lambda x: len(x), train_data['sentence'])): 获取每个句子的长度
# [len(value) for value in train_data['sentence'].values]: 也可以用此行代码实现获取每个句子的长度
train_data['sentence_length'] = list(map(lambda x: len(x), train_data['sentence']))
# 4 绘制数据长度分布图-柱状图
sns.countplot(x='sentence_length', data=train_data)
# sns.countplot(x=train_data['sentence_length'])
plt.xticks([]) # x轴上不要提示信息
# plt.title('sentence_length countplot')
plt.show()
# 5 绘制数据长度分布图-曲线图
sns.displot(x='sentence_length', data=train_data, kde=True)
# sns.displot(x=train_data['sentence_length'])
plt.yticks([]) # y轴上不要提示信息
plt.show()
# 验证集
# 3 求数据长度列然后求数据长度的分布
dev_data['sentence_length'] = list(map(lambda x: len(x), dev_data['sentence']))
# 4 绘制数据长度分布图-柱状图
sns.countplot(x='sentence_length', data=dev_data)
# sns.countplot(x=dev_data['sentence_length'])
plt.xticks([]) # x轴上不要提示信息
# plt.title('sentence_length countplot')
plt.show()
# 5 绘制数据长度分布图-曲线图
sns.displot(x='sentence_length', data=dev_data, kde=True)
# sns.displot(x=dev_data['sentence_length'])
plt.yticks([]) # y轴上不要提示信息
plt.show()

复制代码

效果展示

3.词频统计

指统计文本数据集中每个词语出现的频率。

作用
- 相识文本数据的关键词
- 过滤停用词
- 选择特征(词频可以作为一种特征，用于文本分类、信息检索等任务。)
- 可视化关键词
实今世码

# 导入jieba用于分词
# 导入chain方法用于扁平化列表
import jieba
from itertools import chain
def dm_word_count():
#设置显示风格plt.style.use('fivethirtyeight')
plt.style.use('fivethirtyeight')
# 读训练集验证集数据
train_data = pd.read_csv(filepath_or_buffer='data/train.tsv', sep='\t')
dev_data = pd.read_csv(filepath_or_buffer='data/dev.tsv', sep='\t')
# 进行训练集的句子进行分词, 并统计出不同词汇的总数
# chain(*iterables): 将多个可迭代对象合并为一个可迭代对象
# *:拆解嵌套的列表/元组等 *[[1,2],[3,4]]->[1,2],[3,4]
# *[jieba.lcut(value) for value in train_data["sentence"].values] -> 也可以用此代码替换
train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data["sentence"])))
print("训练集共包含不同词汇总数为：", len(train_vocab))
# 进行验证集的句子进行分词, 并统计出不同词汇的总数
dev_vocab = set(chain(*map(lambda x: jieba.lcut(x), dev_data["sentence"])))
print("训练集共包含不同词汇总数为：", len(dev_vocab))

复制代码

实现效果

训练集共包含不同词汇总数为： 12162
训练集共包含不同词汇总数为： 6857

复制代码

4.关键词词云

一种可视化技术，以图形化的方式展示文本中词语的频率，通常频率越高的词语表现得越大。

作用
- 直观展示关键词
- 帮助理解文本主题
- 信息传递
获取训练集高频词词云
- 思路分析
  - 获得训练集上正样本
  - 获取正样本的每个句子的形容词

# 使用jieba中的词性标注功能
import jieba.posseg as pseg
from wordcloud import WordCloud
# pip install wordcloud -i https://mirrors.aliyun.com/pypi/simple/
# 每句话产生形容词列表
def get_a_list(text):
r = []
# 使用jieba的词性标注方法切分文本找到形容词存入到列表中返回
for g in pseg.lcut(text):
if g.flag == "a":
r.append(g.word)
return r
# 根据词云列表产生词云
def get_word_cloud(keywords_list):
# 实例化词云生成器对象
# font_path: 字体文件路径
# max_words: 词云图上最多显示的词数
# background_color: 词云图背景颜色, 默认black黑色
wordcloud = WordCloud(font_path="data/SimHei.ttf", max_words=100, background_color='white')
# 准备数据
keywords_string = " ".join (keywords_list)
# 产生词云
wordcloud.generate(keywords_string)
# 画图
plt.figure()
# 显示词云
# nterpolation="bilinear":指定图像的插值方式，使图像在显示时更加平滑。
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis('off')
plt.show()
def dm_train_word_cloud():
# 1 获得训练集上正样本p_train_data
# eg: 先使用逻辑==操作检索符合正样本 train_data[train_data['label'] == 1]
train_data = pd.read_csv(filepath_or_buffer='data/train.tsv', sep='\t')
p_train_data = train_data[train_data['label'] == 1 ]['sentence']
# 2 获取正样本的每个句子的形容词 p_a_train_vocab = chain(*map(a,b))
p_a_train_vocab = chain(*map(lambda x: get_a_list(x) , p_train_data))
# print(p_a_train_vocab)
# print(list(p_a_train_vocab))
# 3 调用绘制词云函数
get_word_cloud(p_a_train_vocab)
print('*' * 60 )
# 训练集负样本词云
n_train_data = train_data[train_data['label'] == 0 ]['sentence']
# 2 获取正样本的每个句子的形容词 p_a_train_vocab = chain(*map(a,b))
n_a_train_vocab = chain(*map(lambda x: get_a_list(x) , n_train_data))
# print(n_a_dev_vocab)
# print(list(n_a_dev_vocab))
# 3 调用绘制词云函数
get_word_cloud(n_a_train_vocab)

复制代码

效果展示

ain_data[train_data[‘label’] == 0 ][‘sentence’]

# 2 获取正样本的每个句子的形容词 p_a_train_vocab = chain(*map(a,b))
n_a_train_vocab = chain(*map(lambda x: get_a_list(x) , n_train_data))
# print(n_a_dev_vocab)
# print(list(n_a_dev_vocab))
# 3 调用绘制词云函数
get_word_cloud(n_a_train_vocab)

复制代码

- 效果展示
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a4f5bc265c334246a8215f268338d7de.png#pic_center)

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

03_NLP常用的文本数据分析处理方法

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

03_NLP常用的文本数据分析处理方法

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

登录参与点评抽奖加入IT实名职场社区