马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
数据预处理
读取csv数据集
- def read_file(file_path):
- data = []
- label = []
- with open(file_path, "r", encoding="utf-8") as file:
- reader = csv.reader(file)
- next(reader) # 跳过标题行
- # row每一行用英文逗号分割成列表[标签,文本] 所以标签和文本用英文逗号隔开
- for row in reader:
- # 数据清洗 跳过不完整行
- if len(row) < 2:
- print(f"跳过不完整行: {row}")
- continue
- # 获取每行的标签和文本
- label_row, text_row = row[0], row[1]
- # 数据清洗 跳过空文本的行
- if not text_row:
- print(f"跳过空文本的行: {row}")
- continue
- label.append(label_row)
- # 将字符串标签转成数字标签
- label = [int(i) for i in label]
- print(f"读取 {len(label)} 行数据,标签分布: {Counter(label)}")
- return data, label
复制代码 csv.reader 默认用英文逗号(,)把一行分割成列表
数据清洗
- # 数据清洗 跳过不完整行
- if len(row) < 2:
- print(f"跳过不完整行: {row}")
- continue
复制代码- # 数据清洗 跳过空文本的行
- if not text_row:
- print(f"跳过空文本的行: {row}")
- continue
复制代码 数据加强
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |