论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
后端开发
›
.Net
›
使用C#/.NET剖析Wiki百科数据实现获取历史上的本日 ...
使用C#/.NET剖析Wiki百科数据实现获取历史上的本日
知者何南
金牌会员
|
2024-7-17 17:27:37
|
显示全部楼层
|
阅读模式
楼主
主题
874
|
帖子
874
|
积分
2622
创建一个webapi项目做测试使用。
创建新控制器,搭建一个基础框架,包罗获取当天日期、wiki的哀求地址等
创建一个Http哀求帮助类以及方法,用于获取指定URL的信息
使用http哀求访问指定url,先运行一下,看看返回的内容。内容如图右边所示,现实上是一个Json数据。我们主要剖析 大事记 部分的内容,位于Json的revisions字段内
定义有关实体类,用于把收到的json数据转换为对象
根据转换的对象,可以看到对象内全部需要的内容,都在Content字段内里了。由于不知道是否存在多层结构,所以此处使用循环来遍历内容。先搭建个模子。
编写一个正则表达式,根据规律,可以辨认出,每个词条都是以[]的情势存在,而且存在嵌套内容,所以做一个数据清理,清理嵌套抽重复的数据。
剖析出来的新文本,看起来内容惬意一点了。然后我们只需要获取[[xx年]]的这些词行数据,所以可以继续做个数据清理,匹配正则表达式
根据匹配的正则表达式内容,做个遍历输出
查看输出的内容,可以看到已经被过滤乐成了:
不过默认是繁体字,咱们再完善下,做成简体字。先安装一个古老的包:ChineseConverter 有提示不消管,能用。
然后直接调用即可:string simplifiedText = ChineseConverter.Convert(繁体中文字符串, ChineseConversionDirection.TraditionalToSimplified);然后重新跑一下,可以看到繁体变成了简体了。
末了,剩下的一些括号等符号,或者特殊字符,只需要做一个全局替换即可。以及假如需要剖析其他内容,也可以自行再开发一个对应的正则表达式即可。 如需以上源码,可在个人公众号【Dotnet Dancer】背景回复“历史上的本日” 即可获取以上源码。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
知者何南
金牌会员
这个人很懒什么都没写!
楼主热帖
SQLServer数据库基础教程
开源二三事|ShardingSphere 与 Databa ...
Sqlserver创建用户并授权
华为再次登上央视!鸿蒙系统3.0今年上 ...
「笔记」某移动SRE运维体系交流 ...
Oracle调度器Scheduler
这个简单的小功能,半年为我们产研团队 ...
ESP32-C3 学习测试 蓝牙 篇(六、添加 ...
编程体验1
Kubernetes(K8S) Controller - Statefu ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表