ToB企服应用市场:ToB评测及商务社交产业平台

标题: Python批量采集百度资讯文章,如何自定义采集日期范围 [打印本页]

作者: 飞不高    时间: 2023-3-14 12:54
标题: Python批量采集百度资讯文章,如何自定义采集日期范围

01 引言

大家好!蜡笔小曦有个朋友是做能源相关工作的,她想要有一个工具以天为单位持续地采集百度资讯中能源相关的文章进行留存和使用。
其中有个需求点是说能够自定义采集的开始日期和结束日期,这样更加灵活,保证在后续增量文章的采集上时间可控(因为关键词有200个左右)
大家也都知道,百度资讯文章列表页显示的发布时间不都是标准格式,其中包含x分钟前、x小时前、今天、昨天、x天前等格式(见下图),所以我们优先要实现基于给定的的开始日期和结束日期构建一个有效发布标识列表

02 实现过程

通过分析梳理,百度资讯列表页展示的发布时间规则如下:

接下来就是把上表的规则用Python代码实现,定义一个函数 available_date_list,输入开始日期start_date和结束日期end_date2个参数,最后返回一个有效发布标识列表 available_date_list。
  1. from datetime import datetime
  2. import pandas as pd
复制代码
  1. start_date = datetime.strptime(start_date, '%Y-%m-%d')
  2. end_date = datetime.strptime(end_date, '%Y-%m-%d')
复制代码
  1. today_date = datetime.now()
  2. current_year = str(today_date.year) + '年'
复制代码
  1. date_list = pd.date_range(start=start_date, end=today_date, freq='D').strftime('%Y年%m月%d日').tolist()
  2. date_list = [each_date.replace('年0', '年').replace('月0', '月').replace(current_year, '') for each_date in date_list]
复制代码
  1. nearly_10_days_list = ['10天前', '9天前', '8天前', '7天前', '6天前', '5天前', '4天前', '3天前', '前天', '昨天', '今天']
复制代码
  1. available_date_list = date_list[:-11] + nearly_10_days_list
复制代码
  1. start_vs_end_dif = (end_date - start_date).days
  2. return available_date_list[:start_vs_end_dif + 1
复制代码
大功告成!
03 知识点总结

以上过程中,核心有2个知识点:
利用Pandas快速构建日期列表
通过列表推导式对日期进行处理
完整源代码请关注公众号蜡笔小曦爱学习,在消息框回复关键词20230313获取

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4