2024版小红书批评区采集工具软件,可完整批量抓取一级批评和二级批评! ...

打印 上一主题 下一主题

主题 901|帖子 901|积分 2703

一、爬取目标

小红书是众多客户的流量蓝海,可通过批评区数据高效引流获客。我用python开发的爬虫采集软件,可自动抓取小红书批评数据,并且含二级批评数据。
为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!
1.1 效果截图

软件界面截图:

效果截图1:

效果截图2:

效果截图3:

1.2 演示视频

软件运行演示:【软件演示】小红书批评采集工具,可爬取上万条,含二级批评!
不懂编程代码的小白可直接看演示视频,忽略代码部分!
1.3 软件说明

几点重要说明:

二、代码讲解

2.1 爬虫采集模块

通过把已有代码部分封装成class类,供tkinter界面调用。
详细爬虫实现逻辑,请见:
【爬虫实战】用Python采集任意小红书笔记下的批评,爬了10000多条,含二级批评!
2.2 软件界面模块

软件界面接纳tkinter开发。
主窗口部分:
  1. # 创建日志目录
  2. work_path = os.getcwd()
  3. if not os.path.exists(work_path + "/logs"):
  4.         os.makedirs(work_path + "/logs")
  5. # 创建主窗口
  6. root = tk.Tk()
  7. root.title('小红书评论采集软件 | 马哥python说')
  8. # 设置窗口大小
  9. root.minsize(width=850, height=650)
复制代码
填写cookie控件:
  1. # 【填入Cookie】
  2. tk.Label(root, justify='left', font=('微软', 14), text='个人Cookie:').place(x=30, y=75)
  3. entry_ck = tk.Text(root, bg='#ffffff', width=110, height=2, )
  4. entry_ck.place(x=30, y=100, anchor='nw')  # 摆放位置
复制代码
填写笔记链接控件:
  1. # 【笔记链接】
  2. tk.Label(root, justify='left', font=('微软', 14), text='笔记链接:').place(x=30, y=145)
  3. note_ids = tk.StringVar()
  4. note_ids.set('')
  5. entry_nt = tk.Text(root, bg='#ffffff', width=110, height=14, )
  6. entry_nt.place(x=30, y=170, anchor='nw')  # 摆放位置
复制代码
底部软件版权说明:
  1. # 版权信息
  2. copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
  3. copyright.place(x=290, y=625)
复制代码
以上。
2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位缘故起因,修复bug。
核心代码:
  1. def get_logger(self):
  2.         self.logger = logging.getLogger(__name__)
  3.         # 日志格式
  4.         formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
  5.         # 日志级别
  6.         self.logger.setLevel(logging.DEBUG)
  7.         # 控制台日志
  8.         sh = logging.StreamHandler()
  9.         log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
  10.         # info日志文件名
  11.         info_file_name = time.strftime("%Y-%m-%d") + '.log'
  12.         case_dir = r'./logs/'
  13.         info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
  14.                                                                                         when='MIDNIGHT',
  15.                                                                                         interval=1,
  16.                                                                                         backupCount=7,
  17.                                                                                         encoding='utf-8')
复制代码
日志文件截图:

三、转载声明

转载已获原作者 @马哥python说 授权:
博客园原文链接:
【GUI软件】小红书批评采集v4.0升级版:自动采集1w多条,含二级批评!
10年Python步伐员,持续分享源码干货!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

滴水恩情

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表