bert项目分析
数据预处理读取csv数据集
def read_file(file_path):
data = []
label = []
with open(file_path, "r", encoding="utf-8") as file:
reader = csv.reader(file)
next(reader)# 跳过标题行
# row每一行用英文逗号分割成列表[标签,文本]所以标签和文本用英文逗号隔开
for row in reader:
# 数据清洗 跳过不完整行
if len(row) < 2:
print(f"跳过不完整行: {row}")
continue
# 获取每行的标签和文本
label_row, text_row = row, row
# 数据清洗 跳过空文本的行
if not text_row:
print(f"跳过空文本的行: {row}")
continue
label.append(label_row)
# 将字符串标签转成数字标签
label =
print(f"读取 {len(label)} 行数据,标签分布: {Counter(label)}")
return data, label
csv.reader 默认用英文逗号(,)把一行分割成列表
数据清洗
# 数据清洗 跳过不完整行
if len(row) < 2:
print(f"跳过不完整行: {row}")
continue
# 数据清洗 跳过空文本的行
if not text_row:
print(f"跳过空文本的行: {row}")
continue
数据加强
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]