论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
后端开发
›
Java
›
NLP segment-01-聊一聊分词 AI 的基础
NLP segment-01-聊一聊分词 AI 的基础
道家人
论坛元老
|
2024-11-1 00:08:27
|
显示全部楼层
|
阅读模式
楼主
主题
1031
|
帖子
1031
|
积分
3093
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
关键词系列专题
NLP segment-01-聊一聊分词
NLP segment-02-聊一聊关键词提取 keyword
NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
倒排索引原理与实现 reverse-index
TF-IDF 自动生成文章摘要
TF-IDF 自动提取关键词
相似文章算法之语义指纹-文本内容去重
TF-IDF 找出相似文章算法
开源项目
为了便于大家学习,项目开源地点如下,欢迎 fork+star 鼓励一下老马~
nlp-keyword 关键词
pinyin 汉字转拼音
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词
NLP 的分词
在自然语言处理(NLP)中,
分词
是指将一段文本按照肯定规则分解为一个个单词或词组的过程。
这是 NLP 的基础步骤之一,尤其在中文处理里尤为关键,因为中文没有天然的空格分隔词语。
分词的必要性
中文语料
:与英文差别,中文中没有天然的分词标记,分词是明白文本的前提。例如,“我爱北京天安门”可以分成多个差别的词组,影响模子对文本的明白。
语义分析
:正确的分词可以资助算法正确地获取文本寄义,便于后续的词频统计、情感分析等使命。
信息检索
:分词能够提高信息检索系统的精度,比如在搜索引擎中,合理的分词可以资助用户更好地找到相关内容。
分词的难点
歧义问题
:如“我是中国人”,“中国人”既可以是国家名字加“人”,也可以是“中”“国人”。
未登录词
:在词库中不存在的词称为未登录词,比如新出现的网络词汇、人名或地名等,必要识别这些词语才气提拔分词的正确度。
多义性
:同一个词在差别上下文中的寄义可能差别,例如“苹果”既可能是水果,也可能是科技公司。
分词方法
基于规则的分词
:
正向最大匹配法(MM)
:从文本开头开始,实验匹配最长的词,直到文本结束。缺点是可能会漏掉较短的词汇。
逆向最大匹配法(RMM)
:从文本末尾开始,向前匹配最长词语。可以与正向法组合,增加正确率。
双向最大匹配法(Bi-MM)
:联合正向和逆向匹配,取分词结果较少的分法。可以较好地减少歧义,但效果仍有限。
基于统计的分词
:
N-gram 模子
:将词语按 N-gram(如二元组)的形式切分,利用词语共现的频率盘算切分的概率。适合处理文本中的高频词。
隐马尔科夫模子(HMM)
:将分词问题转化为状态序列标注问题,利用已知的标注序列训练模子并盘算分词概率。能处理肯定的未登录词问题,但依赖于标注数据的质量。
基于机器学习的分词
:
条件随机场(CRF)
:一种常用的序列标注方法,能通过上下文信息举行词语边界判断。与 HMM 相比,CRF 不要求特性的独立性,适合更复杂的语言结构。
支持向量机(SVM)、决策树等
:将分词转化为分类问题,使用上下文特性判断分词点。效果通常不如 CRF,但在特定使命中可能有效。
基于深度学习的分词
:
循环神经网络(RNN)
:RNN 模子(如 LSTM 和 GRU)可以处理长文本的上下文信息,通过构建一个词语序列标注模子来举行分词。
BERT、GPT 等预训练模子
:这类模子捕获了丰富的上下文信息和语义关系,经过微调后可用于分词使命,尤其在处理复杂语境和歧义问题上体现优异。
分词有哪些应用场景?
分词在自然语言处理(NLP)的多个应用场景中起着重要的作用。以下是一些主要的应用场景:
1.
文本分类
分词作为特性提取的第一步
:通过分词,可以将文本转换为词袋模子(Bag of Words)或 TF-IDF 特性向量,以便于分类算法使用。
垃圾邮件分类
:在邮件分类中,通过分词可以提取关键词,将文本分为正常邮件、广告或垃圾邮件等类别。
情感分析
:分词能提取出情绪词汇,为判断文本的情感倾向(如正面、负面、中性)提供基础数据。
2.
搜索引擎
关键字提取
:在搜索引擎中,用户的查询词通过分词剖析成多个关键词,用于检索和匹配文档内容。
相关性排序
:通过分词可以提取文档中的重要词汇,资助搜索引擎对结果举行更正确的排序。
自动补全和纠错
:分词和词频统计可以资助实现搜索时的自动补全,纠正用户的拼写错误或输入错误的词语。
3.
信息抽取
实体识别
:分词与命名实体识别联合使用,可以提取人名、地名、机构名等特定信息。
关系抽取
:从文本中提取实体之间的关系(如“苹果公司”与“收购”之间的关系),必要基于分词获取基础的句子结构信息。
事件抽取
:通过分词识别特定事件(如“地震”、“发布会”等)并记录相关信息,在新闻监控和情报分析中非常重要。
4.
机器翻译
中文分词对齐
:在翻译中文文本时,分词可以资助分解复杂的词汇结构,便于机器翻译模子举行词对齐处理。
提拔语法分析效果
:分词能提拔句法分析的正确率,进而提拔翻译的连贯性和正确性,特别是在复杂句和长句中效果明显。
5.
对话系统和聊天机器人
意图识别
:通过分词获取用户输入中的关键词,可以资助聊天机器人识别用户意图(如查询天气、下订单等)。
槽位填充
:分词资助机器人识别出用户意图中的参数信息,比如时间、地点等,为槽位填充提供基础。
上下文明白
:联合分词可以资助对话系统更好地明白用户的上下文内容,从而提供更相关的答复。
6.
文本摘要
关键词提取
:在生成摘要时,通过分词提取文中的高频词和重要词,有助于生成概括性较强的文本摘要。
句子压缩
:分词可以资助在长句中提取重要的语义片段,从而去掉冗余信息,为摘要生成打下基础。
7.
知识图谱构建
实体和关系抽取
:分词能够资助从文本中识别实体和关系,便于构建知识图谱。
数据整合
:在将多个数据源整合到知识图谱时,分词可以对同义词、复合词举行拆分和规范化处理,提拔数据同等性。
自动构建
:通过自动化分词和实体识别,可以从海量文本中抽取知识点,形成结构化的知识图谱。
8.
推荐系统
用户兴趣提取
:通过分词分析用户的欣赏记录、评论、搜索汗青,提取出用户的兴趣关键词。
个性化推荐
:基于分词结果将用户兴趣和推荐内容举行匹配,实现个性化推荐,特别在新闻推荐和电商推荐中应用广泛。
9.
舆情分析和社会媒体监控
主题和热门分析
:通过分词提取出文本中的高频词,可以用于识别和追踪社交媒体上的热门话题。
情绪和情感分析
:在评论、社交媒体等文本中,通过分词识别出情感倾向词汇,资助判断公众的情绪(如满意、不满等)。
事件监控
:对重大事件的文本及时分析,通过分词和关键词提取,自动检测和监控事件进展。
10.
语音识别
分词辅助语言模子
:在语音识别中,分词有助于构建语言模子,提高语音识别的正确度,尤其是对拼接单词的识别。
后处理步骤
:语音识别系统生成的文本往往没有标点符号,分词资助举行句子分别和标点恢复,提拔文本可读性。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
道家人
论坛元老
这个人很懒什么都没写!
楼主热帖
CentOS7.9使用sealos部署单节点k8s并部 ...
青龙2.10.13 稳定版+Ninja登录面板+傻 ...
日本开放Wi-Fi 6E认证
软件危机与软件过程模型
〖Python接口自动化测试实战篇⑨〗- 实 ...
LyScript 从文本中读写ShellCode
Redis和Mysql保持数据一致性
推荐一款完全开源,功能丰富,界面精美 ...
C#_串口调试助手-网络拓扑显示 ...
如何精简 Prometheus 的指标和存储占用 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
程序人生
DevOps与敏捷开发
Oracle
SQL-Server
Mysql
快速回复
返回顶部
返回列表