命名实体识别

打印 上一主题 下一主题

主题 1832|帖子 1832|积分 5496

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
命名实体识别常用方法:
    1.传统方法
        基于规则:利用正则表达式,词典匹配或语法规则
        统计呆板学习
            特性工程:利用词性标注、词形、上下文窗口、前缀或后缀等特性
            模型:隐马尔可夫模型、条件随机场
    2.深度学习方法
        词嵌入:Word2Vec、GloVe等将词转化为向量
        序列建模
            BiLSTM-CRF:双向LSTM捕捉上下文,CRF优化标签序列
            Transformer模型:BERT、RoBERTa等预训练模型通过微调实现SOTA性能
            Prompt Learning:利用模板引导模型天生实体(如“找到组织:[ORG]”)
 
正则的基础知识
基本语法
元字符阐明
.匹配恣意字符(除换行符)
^匹配行首
$匹配行尾
*前一个字符0次或多次
+前一个字符1次或多次
?前一个字符0次或1次
[]字符集合
()分组捕捉
转义字符:特别字符需用 \ 转义:\. 匹配句号,\\ 匹配反斜杠

 预定义字符类
简写等效表达式阐明
\d[0-9]数字
\w[a-zA-Z0-9_]单词字符(字母、数字、下划线)
\s[ \t\n\r\f\v]空缺字符(空格、制表符等)
\D[^0-9]非数字
\W[^\w]非单词字符
\S[^\s]非空缺字符


 正则表达式在NER中的应用
  1. # 匹配"YYYY-MM-DD"或"MM/DD/YYYY"
  2. (\d{4}-\d{2}-\d{2})|(\d{2}/\d{2}/\d{4})
  3. # 匹配11位手机号(以13/14/15/17/18/19开头)
  4. ^1[3-9]\d{9}$
  5. # 简单匹配(如user@example.com)
  6. \w+@\w+\.(com|cn|net)
  7. # 匹配"¥100.00"或"$1,000"
  8. [¥$]\d+(,\d{3})*(\.\d{2})?
  9. # 匹配"¥100.00"或"$1,000"
  10. [¥$]\d+(,\d{3})*(\.\d{2})?
  11. #嵌套结构
  12. # 匹配"北京市(海淀区)"中的地名
  13. ([^\(]+)\(([^\)]+)\)
复制代码
Word2Vec的基础知识
目标:将单词映射到低维稠密向量空间,使得语义/语法相似的词在向量空间中间隔相近。
两种模型架构:
1.CBOW


  • 输入:周围上下文词(窗口内的词)的向量。
  • 输出:预测当前中心词。
  • 特点

    • 得当小型数据集或高频词。
    • 训练速度快,对稀有词体现较差。

2. Skip-gram



  • 输入:当前中心词的向量。
  • 输出:预测周围上下文词。
  • 特点

    • 得当大型数据集,能更利益理稀有词。
    • 训练速度较慢,但结果通常优于CBOW。

架构对比
模型输入输出实用场景CBOW上下文词中心词小数据、高频词Skip-gram中心词上下文词大数据、稀有词  训练步骤详解

 数据预处理



  • 分词:英文转为小写,中文需分词(如结巴分词)。
  • 停用词过滤:移除偶然义词(如“的”、“and”)。
  • 低频词处理:删除出现次数少于 min_count 的词。
2. 构建词汇表



  • 统计词频,为每个词分配唯一索引。
  • 天生 (word, index) 映射和反向映射。
3. 模型训练(以Skip-gram为例)



  • 输入层:中心词的 one-hot 向量(维度=词汇表大小)。
  • 隐蔽层:无激活函数,权重矩阵 W(维度=[vocab_size, embedding_dim])即为词向量表。
  • 输出层:Softmax 预测上下文词的概率分布。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

乌市泽哥

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表