OracleNLP:定名实体识别及案例(Bert微调)

忿忿的泥巴坨 发表于 2024-9-23 03:00:31

NLP:定名实体识别及案例(Bert微调)

1. 定名实体识别

定名实体识别(Named Entity Recognition, NER)是自然语言处理中的一种技术，旨在从文本中识别并分类特定的实体。实体通常包罗人名、地名、机构名、时间、日期、货币等。这种识别在很多实际应用中非常重要，如信息提取、自动问答、呆板翻译和文本摘要。
2. 利用Bert微调模型进行定名实体识别

2.1 BIO标记

BIO标记法是定名实体识别中的一种常用数据标注方案，用于标记文本中每个单词的标签，明白它是属于实体的哪部分。BIO 标记法通过B-、I- 和O三个前缀来表示定名实体的边界和布局：

[*]B-(Begin):表示定名实体的开头。比方，B-PER表示人名实体的第一个单词。
[*]I-(Inside):表示定名实体的内部部分。比方，I-PER 表示人名实体中非首字的单词。
[*]O(Outside):表示这个单词不属于任何定名实体。
BIO标记方法中通常包含：PER(人名)、ORG(构造名)、LOC(地名)和MISC(变乱、产品、国籍、语言)
2.2 数据集介绍

这里利用NER使命中常用的数据集:CoNLL-2003，该数据集最早由 CoNLL(Conference on Computational Natural Language Learning)共享使命发布，广泛应用于自然语言处理中的 NER 使命。该数据会集训练集共14041条，验证集共3250条，测试集共3453。训练会集的数据如下：
{
"chunk_tags": ,
"id": "0",
"ner_tags": ,
"pos_tags": ,
"tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."]
}
关于这个数据集，每个部分的详细含义如下：

[*]tokens表示文本中的单词。全部的tokens组合起来就是句子的原始文本。NER使命中必要为数据会集的每个单词都会被标注相关的标签。
[*]chunk_tags表示短语块标签。它标记出句子中的短语布局，资助识别着名词短语(NP)、动词短语(VP)、介词短语(PP)等。
[*]ner_tags表示定名实体识别标签，利用的是BIO标记法。在该数据集在hugging face上的主页上可以找到BIO标记与数字的对应方式。详细如下：
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
依据这个信息，European Commission被标记为ORG。

[*]pos_tags为词性标签。
2.3 数据labels准备

由于利用BertTokenizer处理数据的tokens时，利用WordPiece分词算法时大概会将一个完整的单词拆分成了多个，全部训练数据会集的ner_tags并不能直接作为后续分类器BertForTokenClassification的labels用于训练。在这种情况下，标签必要与每个子词对齐，可以采用如下规则：

[*]第一个子词保留原始标签，比如B-ORG，其余子词可以标注为I-ORG。举比方下：
tokens = ['Ap', '##ple', 'is', 'a', 'technology', 'company']
labels = ['B-ORG', 'I-ORG', 'O', 'O', 'O', 'O']
2.4 Bert微调

from datasets import load_dataset
from transformers import BertTokenizerFast, BertForTokenClassification
from transformers import TrainingArguments, Trainer

# 加载 CoNLL-2003 数据集
dataset = load_dataset("conll2003")
train_dataset = dataset["train"]
eval_dataset = dataset["validation"]
test_dataset = dataset["test"]
# 加载 BERT tokenizer 和模型
tokenizer = BertTokenizerFast.from_pretrained("bert-base-cased")
label_list = dataset["train"].features["ner_tags"].feature.names
print(train_dataset)
def tokenize_and_align_labels(examples):
tokenized_inputs = tokenizer(examples["tokens"], truncation=True, padding="max_length",
                              is_split_into_words=True)
labels= []
for i, label in enumerate(examples["ner_tags"]):
   word_ids = tokenized_inputs.word_ids(batch_index=i)
   previous_word_idx = None
   label_ids = []
   for word_idx in word_ids:
         if word_idx is None:
            label_ids.append(-100)
         elif word_idx != previous_word_idx:
            label_ids.append(label)
         else:
            label_ids.append(label)
         previous_word_idx = word_idx
   labels.append(label_ids)
tokenized_inputs["labels"] = labels
print(labels)
print(len(tokenized_inputs.input_ids),len(labels))
return tokenized_inputs

train_dataset = train_dataset.map(tokenize_and_align_labels, batched=True)
eval_dataset = eval_dataset.map(tokenize_and_align_labels, batched=True)
test_dataset = test_dataset.map(tokenize_and_align_labels, batched=True)

model= BertForTokenClassification.from_pretrained("bert-base-cased",
                                             num_labels=len(label_list))
training_args = TrainingArguments(
output_dir='./results',       # 输出目录
eval_strategy="epoch", # 每个 epoch 进行评估
learning_rate=2e-5,          # 学习率
per_device_train_batch_size=16,# 训练 batch size
per_device_eval_batch_size=16, # 评估 batch size
num_train_epochs=3,          # 训练 epoch 数
weight_decay=0.01,             # 权重衰减
)

# 使用 Trainer API
trainer = Trainer(
model=model,                   # 待训练的模型
args=training_args,             # 训练参数
train_dataset=train_dataset,# 训练数据集
eval_dataset=eval_dataset,# 验证数据集
tokenizer=tokenizer             # 使用的 tokenizer
)

trainer.train()
eval_results = trainer.evaluate()
print(eval_results)
pred_results = trainer.predict(test_dataset)
print(pred_results)

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

NLP:定名实体识别及案例(Bert微调)