01 引言
大家好!蜡笔小曦有个朋友是做能源相关工作的,她想要有一个工具以天为单位持续地采集百度资讯中能源相关的文章进行留存和使用。
其中有个需求点是说能够自定义采集的开始日期和结束日期,这样更加灵活,保证在后续增量文章的采集上时间可控(因为关键词有200个左右)
大家也都知道,百度资讯文章列表页显示的发布时间不都是标准格式,其中包含x分钟前、x小时前、今天、昨天、x天前等格式(见下图),所以我们优先要实现基于给定的的开始日期和结束日期构建一个有效发布标识列表。
02 实现过程
通过分析梳理,百度资讯列表页展示的发布时间规则如下:
接下来就是把上表的规则用Python代码实现,定义一个函数 available_date_list,输入开始日期start_date和结束日期end_date2个参数,最后返回一个有效发布标识列表 available_date_list。
- from datetime import datetime
- import pandas as pd
复制代码- start_date = datetime.strptime(start_date, '%Y-%m-%d')
- end_date = datetime.strptime(end_date, '%Y-%m-%d')
复制代码- today_date = datetime.now()
- current_year = str(today_date.year) + '年'
复制代码
- 利用Pandas生成2个日期之间每天的日期列表,并使用Python的列表推导式按照百度资讯页面展示的格式对日期进行处理
- date_list = pd.date_range(start=start_date, end=today_date, freq='D').strftime('%Y年%m月%d日').tolist()
- date_list = [each_date.replace('年0', '年').replace('月0', '月').replace(current_year, '') for each_date in date_list]
复制代码- nearly_10_days_list = ['10天前', '9天前', '8天前', '7天前', '6天前', '5天前', '4天前', '3天前', '前天', '昨天', '今天']
复制代码
- 以上2个日期列表进行合并,nearly_10_days_list 替换 date_list 中后11个元素
- available_date_list = date_list[:-11] + nearly_10_days_list
复制代码
- 计算开始日期和结束日期之间的天数间隔并返回所需的有效发布标识列表
- start_vs_end_dif = (end_date - start_date).days
- return available_date_list[:start_vs_end_dif + 1
复制代码 大功告成!
03 知识点总结
以上过程中,核心有2个知识点:
利用Pandas快速构建日期列表
通过列表推导式对日期进行处理
完整源代码请关注公众号蜡笔小曦爱学习,在消息框回复关键词20230313获取
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |