Python批量采集百度资讯文章,如何自定义采集日期范围 ...

打印 上一主题 下一主题

主题 550|帖子 550|积分 1650


01 引言

大家好!蜡笔小曦有个朋友是做能源相关工作的,她想要有一个工具以天为单位持续地采集百度资讯中能源相关的文章进行留存和使用。
其中有个需求点是说能够自定义采集的开始日期和结束日期,这样更加灵活,保证在后续增量文章的采集上时间可控(因为关键词有200个左右)
大家也都知道,百度资讯文章列表页显示的发布时间不都是标准格式,其中包含x分钟前、x小时前、今天、昨天、x天前等格式(见下图),所以我们优先要实现基于给定的的开始日期和结束日期构建一个有效发布标识列表

02 实现过程

通过分析梳理,百度资讯列表页展示的发布时间规则如下:

接下来就是把上表的规则用Python代码实现,定义一个函数 available_date_list,输入开始日期start_date和结束日期end_date2个参数,最后返回一个有效发布标识列表 available_date_list。

  • 导入相关库
  1. from datetime import datetime
  2. import pandas as pd
复制代码

  • 将传入的2个字符参数转化为日期格式
  1. start_date = datetime.strptime(start_date, '%Y-%m-%d')
  2. end_date = datetime.strptime(end_date, '%Y-%m-%d')
复制代码

  • 生成当前日期时间并计算当前年份
  1. today_date = datetime.now()
  2. current_year = str(today_date.year) + '年'
复制代码

  • 利用Pandas生成2个日期之间每天的日期列表,并使用Python的列表推导式按照百度资讯页面展示的格式对日期进行处理
  1. date_list = pd.date_range(start=start_date, end=today_date, freq='D').strftime('%Y年%m月%d日').tolist()
  2. date_list = [each_date.replace('年0', '年').replace('月0', '月').replace(current_year, '') for each_date in date_list]
复制代码

  • 基于百度资讯列表页展示的发布时间规则构造正序列表
  1. nearly_10_days_list = ['10天前', '9天前', '8天前', '7天前', '6天前', '5天前', '4天前', '3天前', '前天', '昨天', '今天']
复制代码

  • 以上2个日期列表进行合并,nearly_10_days_list 替换 date_list 中后11个元素
  1. available_date_list = date_list[:-11] + nearly_10_days_list
复制代码

  • 计算开始日期和结束日期之间的天数间隔并返回所需的有效发布标识列表
  1. start_vs_end_dif = (end_date - start_date).days
  2. return available_date_list[:start_vs_end_dif + 1
复制代码
大功告成!
03 知识点总结

以上过程中,核心有2个知识点:
利用Pandas快速构建日期列表
通过列表推导式对日期进行处理
完整源代码请关注公众号蜡笔小曦爱学习,在消息框回复关键词20230313获取

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

飞不高

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表