NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

[复制链接]
发表于 2024-11-1 19:16:39 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
拓展阅读

分词系列专题

jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思绪 speechTagging segment
关键词系列专题

NLP segment-01-聊一聊分词
NLP segment-02-聊一聊关键词提取 keyword
NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
NLP segment-04-主动择要 auto-summary java 开源实现
NLP segment-20-分词开源项目介绍 HanLP 将来十年的自然语言处理
NLP segment-21-分词开源项目介绍 ansj_seg
倒排索引原理与实现 reverse-index
TF-IDF 主动生成文章择要
TF-IDF 主动提取关键词
相似文章算法之语义指纹-文本内容去重
TF-IDF 找出相似文章算法
NLP segment-21-分词开源项目介绍 ansj_seg
开源项目

为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~
nlp-keyword 关键词
pinyin 汉字转拼音
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词
前言

前面一些内容,我们介绍了分词。
以及 TF-IDF 的实现原理。
固然,这些都是知识,但不是工具。
我们将其转换为方便可用的 java 工具。
nlp-keyword

nlp-keyword性能的 java 分词关键词提取实现,基于分词 segment
愿景:成为 java 最好用的关键词工具。
特性


  • 基于 TF-IDF 算法的关键字算法
  • 机动的条件指定
变更日记
快速开始

maven 引入
  1. <dependency>
  2.     <groupId>com.github.houbb</groupId>
  3.     <artifactId>keyword</artifactId>
  4.     <version>1.0.0</version>
  5. </dependency>
复制代码
快速开始


  • 获取关键词
  1. final String text = "这是一个伸手不见五指的黑夜,夜太美。";
  2. List<IKeywordResult> keywords =  KeywordHelper.keyword(text);
  3. Assert.assertEquals("[伸手不见|0.86879235325, 太美|0.70848301840625, 伸手不见五指|0.63371734601875, 黑夜|0.509854654010625, 伸手|0.43563643037625]", keywords.toString());
复制代码

  • 指定返回的个数
  1. final String text = "这是一个伸手不见五指的黑夜,夜太美。";
  2. List<IKeywordResult> keywords =  KeywordHelper.keyword(text, 1);
  3. Assert.assertEquals("[伸手不见|0.86879235325]", keywords.toString());
复制代码

  • 指定返回的格式
  1. final String text = "这是一个伸手不见五指的黑夜,夜太美。";
  2. List<String> keywords =  KeywordHelper.keyword(text, 1, KeywordResultHandlers.words());
  3. Assert.assertEquals("[伸手不见]", keywords.toString());
复制代码
ROAD-MAP


  • [] 字典数据独立,便于用户自界说选择
  • [] 文本相似度
  • [] auto-summary 主动择要

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-12 23:47 , Processed in 0.075381 second(s), 27 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表