论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
后端开发
›
Java
›
NLP segment-05-文本相似度计算 similarity java 开源实 ...
NLP segment-05-文本相似度计算 similarity java 开源实现
大号在练葵花宝典
金牌会员
|
2024-11-2 20:41:42
|
显示全部楼层
|
阅读模式
楼主
主题
900
|
帖子
900
|
积分
2700
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简朴聊一聊
关键词系列专题
NLP segment-01-聊一聊分词
NLP segment-02-聊一聊关键词提取 keyword
NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
NLP segment-04-自动摘要 auto-summary java 开源实现
NLP segment-05-文本相似度计算 similarity java 开源实现
NLP segment-20-分词开源项目先容 HanLP 未来十年的自然语言处理
NLP segment-21-分词开源项目先容 ansj_seg
倒排索引原理与实现 reverse-index
TF-IDF 自动生成文章摘要
TF-IDF 自动提取关键词
相似文章算法之语义指纹-文本内容去重
TF-IDF 找出相似文章算法
NLP segment-21-分词开源项目先容 ansj_seg
开源项目
为了便于各人学习,项目开源地点如下,接待 fork+star 鼓励一下老马~
nlp-keyword 关键词
pinyin 汉字转拼音
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词
媒介
前面一些内容,我们先容了分词。以及 TF-IDF 的实现原理。
基于分词实现 auto-summary 自动摘要。
这一节我们来一起看一下文本相似度的计算。
nlp-keyword
nlp-keyword
高性能的 java 分词关键词提取实现,基于分词
segment
。
愿景:成为 java 最好用的关键词工具。
特性
基于 TF-IDF 算法的关键字算法
灵活的条件指定
变更日志
文本相似度
maven 引入
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-keyword-similarity</artifactId>
<version>1.2.0</version>
</dependency>
复制代码
入门例子
final String source = "我喜欢看电影,读书和旅游。";
final String target = "我不喜欢看电影。我爱唱跳、RAP、Music~";
double rank = SimilarityHelper.similarity(source, target);
复制代码
结果:
0.677537337470188
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
大号在练葵花宝典
金牌会员
这个人很懒什么都没写!
楼主热帖
记一次MySql唯一索引在left join连表查 ...
鸿蒙系统架构分析
【大话云原生】微服务篇-五星级酒店的 ...
国产开源体系openEuler_24.03_LTS摆设 ...
2021年高教杯数学建模国赛C题的解题过 ...
STM32F1与STM32CubeIDE编程实例-磁簧开 ...
C# 使用dataGridView导入导出excel(NPO ...
渗透测试过程参考
MySQL实战45讲 3
GO实现Redis:GO实现内存数据库(3) ...
标签云
存储
挺好的
服务器
快速回复
返回顶部
返回列表