免费入驻
产品入驻解决方案入驻公司入驻案例入驻
登录 · 注册
- 只需一步，快速开始
- 账号登录
- 立即注册
- 找回密码
自动登录找回密码

密码立即注册

ToB企服应用市场:ToB评测及商务社交产业平台»论坛 › 软件与程序人生 › 后端开发 › Java › NLP segment-05-文本相似度计算 similarity java 开源实 ...

NLP segment-05-文本相似度计算 similarity java 开源实现

大号在练葵花宝典金牌会员 | 2024-11-2 20:41:42 | 显示全部楼层 | 阅读模式

上一主题

下一主题

楼主

主题 900|帖子 900|积分 2700

拓展阅读

分词系列专题

jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简朴聊一聊
关键词系列专题

NLP segment-01-聊一聊分词
NLP segment-02-聊一聊关键词提取 keyword
NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
NLP segment-04-自动摘要 auto-summary java 开源实现
NLP segment-05-文本相似度计算 similarity java 开源实现
NLP segment-20-分词开源项目先容 HanLP 未来十年的自然语言处理
NLP segment-21-分词开源项目先容 ansj_seg
倒排索引原理与实现 reverse-index
TF-IDF 自动生成文章摘要
TF-IDF 自动提取关键词
相似文章算法之语义指纹-文本内容去重
TF-IDF 找出相似文章算法
NLP segment-21-分词开源项目先容 ansj_seg
开源项目

为了便于各人学习，项目开源地点如下，接待 fork+star 鼓励一下老马~
nlp-keyword 关键词
pinyin 汉字转拼音
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词
媒介

前面一些内容，我们先容了分词。以及 TF-IDF 的实现原理。
基于分词实现 auto-summary 自动摘要。
这一节我们来一起看一下文本相似度的计算。
nlp-keyword

nlp-keyword 高性能的 java 分词关键词提取实现，基于分词 segment。
愿景：成为 java 最好用的关键词工具。
特性

基于 TF-IDF 算法的关键字算法
灵活的条件指定

变更日志

文本相似度

maven 引入

<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-keyword-similarity</artifactId>
<version>1.2.0</version>
</dependency>

复制代码

入门例子

final String source = "我喜欢看电影，读书和旅游。";
final String target = "我不喜欢看电影。我爱唱跳、RAP、Music~";
double rank = SimilarityHelper.similarity(source, target);

复制代码

结果：

0.677537337470188

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

回复

使用道具举报

0 个回复

倒序浏览

快速回复

发新帖回复

大号在练葵花宝典

金牌会员

这个人很懒什么都没写!

楼主热帖

标签云

存储挺好的服务器

微信订阅号

微信服务号

微信客服

小程序

H5

关于我们商务合作网站地图

快速回复 返回顶部 返回列表