bert项目分析

打印 上一主题 下一主题

主题 1802|帖子 1802|积分 5406

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
数据预处理

读取csv数据集

  1. def read_file(file_path):
  2.     data = []
  3.     label = []
  4.     with open(file_path, "r", encoding="utf-8") as file:
  5.         reader = csv.reader(file)
  6.         next(reader)  # 跳过标题行
  7.         # row每一行用英文逗号分割成列表[标签,文本]  所以标签和文本用英文逗号隔开
  8.         for row in reader:
  9.             # 数据清洗 跳过不完整行
  10.             if len(row) < 2:
  11.                 print(f"跳过不完整行: {row}")
  12.                 continue
  13.             # 获取每行的标签和文本
  14.             label_row, text_row = row[0], row[1]
  15.             # 数据清洗 跳过空文本的行
  16.             if not text_row:
  17.                 print(f"跳过空文本的行: {row}")
  18.                 continue
  19.             label.append(label_row)
  20.     # 将字符串标签转成数字标签
  21.     label = [int(i) for i in label]
  22.     print(f"读取 {len(label)} 行数据,标签分布: {Counter(label)}")
  23.     return data, label
复制代码
csv.reader 默认用英文逗号(,)把一行分割成列表
数据清洗

  1. # 数据清洗 跳过不完整行
  2.             if len(row) < 2:
  3.                 print(f"跳过不完整行: {row}")
  4.                 continue
复制代码
  1. # 数据清洗 跳过空文本的行
  2.             if not text_row:
  3.                 print(f"跳过空文本的行: {row}")
  4.                 continue
复制代码
数据加强


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

雁过留声

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表