ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【GUI软件】小红书蒲公英数据批量爬取!高效筛选优质博主,助力品牌商! [打印本页]

作者: 立聪堂德州十三局店    时间: 2024-6-18 14:26
标题: 【GUI软件】小红书蒲公英数据批量爬取!高效筛选优质博主,助力品牌商!
目次

一、背景介绍

1.0 爬取目标


众所周知,蒲公英是小红书推出的优质创作者贸易合作服务平台,致力于为品牌和博主提供内容合作服务,可以高效的为品牌匹配出最符合的优质博主。
蒲公英平台,必要有肯定权限的企业资质账号才能申请开通。开通之后,进入【寻找博主】页面,即可根据肯定的筛选条件过滤出满足的博主列表,如下:

上面是筛选条件,下面是筛选结果。
爬虫功能分为2大类模块:第一是根据筛选条件爬取博主列表,第二是根据爬取到的博主id进入详情页面爬取详细数据,详情页如下:

通过分析网页接口,开发出了爬虫GUI软件,界面如下:

共爬取到34个字段,字段如下:
  1. 1        关键词
  2. 2        页码
  3. 3        小红书昵称
  4. 4        小红书号
  5. 5        地址
  6. 6        机构
  7. 7        数据更新至
  8. 8        小红书链接
  9. 9        粉丝数
  10. 10        账号类型
  11. 11        图文报价
  12. 12        视频报价
  13. 13        合作笔记数
  14. 14        预估阅读单价_图文
  15. 15        图文3秒阅读
  16. 16        日常_阅读中位数
  17. 17        日常_互动中位数
  18. 18        日常_阅读来源发现页占比
  19. 19        日常_阅读来源搜索页占比
  20. 20        合作_阅读中位数
  21. 21        合作_互动中位数
  22. 22        合作_阅读来源发现页占比
  23. 23        合作_阅读来源搜索页占比
  24. 24        女性粉丝占比
  25. 25        年龄占比最多的
  26. 26        账号评估
  27. 27        合作笔记1阅读数
  28. 28        合作笔记2阅读数
  29. 29        合作笔记3阅读数
  30. 30        合作笔记4阅读数
  31. 31        合作笔记5阅读数
  32. 32        合作笔记6阅读数
  33. 33        合作笔记7阅读数
  34. 34        合作笔记8阅读数
复制代码
详细演示数据:(看《蒲公英》这个sheet页)
https://docs.qq.com/sheet/DVEFhZlFKR1NXVEdN?tab=suenot
1.1 演示视频

软件利用演示视频:【爬虫软件】批量采集小红书蒲公英博主信息
1.2 软件阐明

重要阐明,请详读:
二、代码讲解

2.0 关于接口

由于采集字段较多,开发者模式中分析接口不止一个,采集程序整合多个接口开发而成,归纳如下:
以上。
2.1 爬虫采集模块

此软件开发成本较高,代码量大、实现逻辑复杂,为保护个人知识版权,防止恶意盗版软件,不展示爬虫焦点代码。
2.2 cookie获取

运行软件之前,必要填写cookie值到txt配置文件中,获取方法如下:

2.3 软件界面模块

主窗口部分:
  1. # 创建主窗口
  2. root = tk.Tk()
  3. root.title('蒲公英爬虫-公开版p1.4 | 马哥python说 | 定制')
  4. # 设置窗口大小
  5. root.minsize(width=850, height=650)
复制代码
部分界面控件:
  1. # 笔记关键词
  2. tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
  3. entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
  4. entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置
复制代码
日记输出控件:
  1. # 运行日志
  2. tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
  3. show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
  4. show_list_Frame.pack_propagate(0)
  5. show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置
复制代码
2.4 日记模块

好的日记功能,方便软件运行出题目后快速定位原因,修复bug。
焦点代码:
  1. def get_logger(self):
  2.         self.logger = logging.getLogger(__name__)
  3.         # 日志格式
  4.         formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
  5.         # 日志级别
  6.         self.logger.setLevel(logging.DEBUG)
  7.         # 控制台日志
  8.         sh = logging.StreamHandler()
  9.         log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
  10.         # info日志文件名
  11.         info_file_name = time.strftime("%Y-%m-%d") + '.log'
  12.         # 将其保存到特定目录
  13.         case_dir = r'./logs/'
  14.         info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
  15.                                                 when='MIDNIGHT',
  16.                                                 interval=1,
  17.                                                 backupCount=7,
  18.                                                 encoding='utf-8')
复制代码
软件运行过程中生成的日记文件:

三、获取采集软件

完整exe采集软件,微信公众号"老男孩的平常之路"后台回复"爬蒲公英"即可获取。点击直达
我是@马哥python说,一名10年程序猿,持续分享Python干货中!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4