Python微博动态爬虫

打印 上一主题 下一主题

主题 962|帖子 962|积分 2886

本文是刘金路的《语言数据获取与分析基础》第十章的扩展,详细表明了如何使用Python进行微博爬虫,爬虫内容包罗微博指定帖子的一级品评、品评时间、用户名、id、地域、点赞数。
整个过程十分明了,就是用户使用代码模拟Ajax哀求,发送给服务器,服务器再处理该哀求,返回相应的数据,末了在页面进行渲染。
本文所使用的第三方库有requests、openpyxl,请先自行安装。
偷懒的读者可以直接跳到第七章,直接复制代码运行。
   结果图
   

  文章目次
???一、基本流程
???二、查看全部品评
???三、找到品评的数据接口
???四、分析数据接口内容
???五、获取内容
???六、批量获取内容
???七、完备代码
???八、微博的限制
8.1 品评数量的限制
8.2 访问的限制

一、基本流程

我们正常使用欣赏器上网,通过前端欣赏器这一用户界面方便地输入网址、点击链接等,相称于发送了HTTP哀求,后端再进行数据返回。
而爬虫是通过代码模拟欣赏器发送哀求,哀求的内容包含headers、cookies等自定义信息,而这些信息欣赏器自己就自带的,所以我们正常上网就没须要考虑这么多。在发送哀求后,如果服务器能正常响应,就会返回海量看似杂乱的数据。末了,我们需要解析这些数据,得到我们想要的。
   模拟欣赏器发送哀求,我们使用Python的第三方库,requests库。下面我们对百度(https://www.baidu.com)进行访问。
  1. import requests
  2. url = 'https://www.baidu.com'   
  3. response = requests.get(url=url)    #发送请求
  4. print(response.status_code)    #若结果返回200则表示正常
  5. print(response.text)            #请求获得源代码
复制代码
  仔细观察返回内容可以发现内容不仅少,而且出现了乱码“o| °±¥é”,这是因为我们没有对哀求进行伪装,被响应端发现了。因此我们需要再加上一些额外的自定义信息。
  1. import requests
  2. url = 'https://www.baidu.com'
  3. headers={
  4. 'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 SLBrowser/9.0.5.11051 SLBChan/10 SLBVPV/64-bit',
  5. }
  6. response = requests.get(url=url,headers=headers)    #发送请求
  7. print(response.status_code)    #若结果返回200则表示正常
  8. print(response.text)
复制代码
  其中的’User-agent’即用户代理,包含了用户所使用的操作系统版本、欣赏器版本等信息。通过增加了headers(头部信息),瞒过了响应端,因此能正常返回源代码。
  ————————————————————————————————————————
  上述情形只适用于静态网页,即所需要的信息在源代码里。
  然而在我们进行微博品评爬虫的时候,我们所需要的数据并不在源代码内,而是动态加载的。
  二、查看全部品评

   以易烊千玺微博的最新帖子为例,我们需要点击查看全部品评,就会跳转到一个新的页面。
  

   鼠标右键<检查>或按F12打开欣赏器的开发者模式,并勾选Disable cache(禁用缓存)。
  革新页面,如图,Name栏下有各种各样的数据接口,储存着不同的数据,我们的目的就是找到我们需要的数据接口,并拿到接口下的数据。
  

三、找到品评的数据接口

   既然有这么多数据接口,那怎么找到我们需要的呢?最简单的方法就是复制品评一部门内容。复制了“祝全天下最帅的千千宝贝生日快乐”后,点击放大镜图标,再在左侧一列粘贴该内容,点击革新图标。之后,双击接口,再点击Preview。
  Preview内的数据是以json格式化展示,简明易读。黑色小三角形功能类似目次,可以进行睁开、折叠。
  

四、分析数据接口内容

   点开’data’后,可以发现有0-19条数据,里面的格式高度地同一,依次点开几个可以发现,我们需要的id、品评等数据都存储在一种类似Python字典格式的键值对里。
  

五、获取内容

   首先进行伪装,即自定义哀求信息,其中紧张的包罗’User-agent’、‘referer’(防盗链)、‘cookie’,不同网站有不同的限定。需要登岸的网站一般都要用到cookie,网站通过它识别用户登录身份。现在我们来找到自己的这些数据。
  在上一步的欣赏器开发者工具中,如图,我们复制这些数据。代码中的params与帖子有关,在开发者工具的Payload内,全部复制粘贴即可。
  

  1. import requests
  2. headers={
  3. 'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 SLBrowser/9.0.5.11051 SLBChan/10 SLBVPV/64-bit',
  4. #自行更改
  5. 'referer':'https://weibo.com/2653906910/P2d23mO3l',
  6. #自行更改
  7. 'cookie':'SINAGLOBAL=2437751658391.7534.1732613052480; XSRF-TOKEN=S9eYHPNYBb4EA4CdIq_CsaWG; SCF=AnvWdOkk8nI9JwyZmH86cW9gt7wNLX4DFiQqFt3_n9fGf4sNBNG7XKR5z9qPUIumCMmBA3d_mSh_9zSSYO2KkA8.; SUB=_2A25KQtf1DeRhGeFJ7VoX8ifNzj2IHXVpPlU9rDV8PUNbmtAbLRj1kW9Nf1irkxLTL3bKCn4suSuV-7E8sDlud4Jz; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5vESPCc8VG.fle.Bw7Y00g5JpX5KzhUgL.FoMNSonceo.pSK22dJLoIEqLxKqL1KzL1K-LxKnLBKeL1hzLxK-LBKBLBKMLxK-L1-eLBoWjd5tt; ALF=02_1735275685; _s_tentry=weibo.com; Apache=9101971672823.17.1732683724233; ULV=1732683724323:2:2:2:9101971672823.17.1732683724233:1732613052488; WBPSESS=KeGgzHFKbGYlLSsXAQi6w6yIVnFklCB92g9IEwKcT6IFw9t3w4GlWYLNWnobudclqNZRGUlNn00rwRSM5bdBO4FLz3Qf7TPT6G0fBQoHQ4hZcFJP5XODD1aum01okGffqFku3aTug5eregoCSIz73Q=='}   
  8. params ={
  9.         'is_reload':'1',
  10.         'id': '5105261544737539',
  11.         'is_show_bulletin': '2',
  12.         'is_mix':'0',
  13.         'count':'10',
  14.         'uid': '3623353053',
  15.         'fetch_level': '0',
  16.         'locale': 'zh-CN',
  17. }
  18. response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params,headers=headers)
  19. for i in range(len(response.json()['data'])-1):
  20.         time = response.json()['data'][i]['created_at']
  21.         id = response.json()['data'][i]['id']
  22.         comment = response.json()['data'][i]['text_raw']
  23.         area = response.json()['data'][i]['source']
  24.         like_counts = response.json()['data'][i]['like_counts']
  25.         print(time)
  26.         print(id)
  27.         print(comment)
  28.         print(area)
  29.         print(like_counts)
复制代码
  偷懒点,读者只需要将cookie、referer更换为自己的就可以了。
  六、批量获取内容

   但是这些数量很少,于是我们就可以猜想,会不会其他的数据在类似名称的数据接口里?为了试验是否该帖子下的品评数据全部存储在以buildComments…为名的数据接口下,我们可以下拉品评区以便产生更多数据接口。在右侧的Filter输入框内输入buildComments,就能从海量数据接口中过滤着名称为buildComments的数据接口,如图。
  

   我们可以在Headers(HTTP哀求头)内找到Request URL(哀求网址),打开该网址,我们可以看到密密麻麻的海量数据,这些数据便是Preview内睁开后的数据。
  

依次复制前几个URL,如下:
https://weibo.com/ajax/statuses/buildCommentsis_reload=1&id=5105473521456009&is_show_bulletin=2&is_mix=0&count=10&uid=3623353053&fetch_level=0&locale=zh-CN
https://weibo.com/ajax/statuses/buildCommentsis_reload=1&id=5105473521456009&is_show_bulletin=2&is_mix=0&max_id=4998721601702697&count=20&uid=3623353053&fetch_level=0&locale=zh-CN
https://weibo.com/ajax/statuses/buildCommentsis_reload=1&id=5105473521456009&is_show_bulletin=2&is_mix=0&max_id=1218463186455944&count=20&uid=3623353053&fetch_level=0&locale=zh-CN
   通过比对,我们可以发现以下规律:
  https://weibo.com/ajax/statuses/buildComments这一部门均同等,之后的参数以’&’进行分隔;第一个数据接口的URL并不包含’max_id’这一参数,且该参数在不停变化;第一个数据接口的count=10,别的都为count=20。
  那么max_id到底是什么呢?又如何找到max_id变化的规律呢?
  返回开发者工具,点击第一个数据接口的Preview界面,我们可以发现它数据内存储着max_id,而且该值与第二个数据接口的URL的max_id同等。多验证几次,我们就能合理猜测前一个数据接口的max_id就是第二个数据接口URL的参数max_id的值。
  

   所以,我们还需要获取数据接口的max_id。
  1. max_id = response.json()['max_id']
复制代码
  至此,整个逻辑已经非常清楚了。第一个数据接口的url不包含max_id;从第二个数据接口开始,url的max_id参数在前一个数据接口内。所以,我们在获取品评等数据的时候,还需要获取这一数据接口的max_id,从而在之后访问url之前,把max_id参数加进去。
  七、完备代码

  1. import time
  2. import requests
  3. import os
  4. from openpyxl import Workbook
  5. headers = {
  6.     'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.5211 SLBChan/105',
  7.     'referer': 'https://weibo.com/2951605050/ODUbvvNAy',
  8.     'cookie':input('请输入你的cookies:')
  9. }
  10. def fetch_weibo_comments(id, uid, max_id=None):
  11.     params = {
  12.         'id': id,
  13.         'is_show_bulletin': '2',
  14.         'uid': uid,
  15.         'fetch_level': '0',
  16.         'locale': 'zh-CN',
  17.         'max_id': max_id  # 如果有max_id,则添加到参数中
  18.     }
  19.     response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params,headers=headers)
  20.     data = response.json()
  21.     return data
  22. def write_to_excel(data, ws):
  23.     titles = ["用户", "时间", "ID", "评论", "地区", "点赞数"]
  24.     for col_num, title in enumerate(titles, start=1):
  25.         ws.cell(row=1, column=col_num, value=title)
  26.     for index, comment in enumerate(data, start=2):
  27.         ws[f'A{index}'] = comment['user']['screen_name']
  28.         ws[f'B{index}'] = comment['created_at']
  29.         ws[f'C{index}'] = comment['id']
  30.         ws[f'D{index}'] = comment['text_raw']
  31.         ws[f'E{index}'] = comment['source']
  32.         ws[f'F{index}'] = comment['like_counts']
  33. def main():
  34.     id = input('请输入主页id:')
  35.     uid = input('请输入主页uid:')
  36.     max_id_list = []
  37.     comment_data = []
  38.     for i in range(15):             #因为微博限制,只能爬取15页
  39.         if i == 0:
  40.             data = fetch_weibo_comments(id, uid)
  41.             max_id_list.append(str(data['max_id']))
  42.             comment_data.extend(data['data'])
  43.         else:
  44.             data = fetch_weibo_comments(id, uid, max_id_list[i - 1])
  45.             max_id_list.append(str(data['max_id']))
  46.             comment_data.extend(data['data'])
  47.         print(f'成功自动爬取第{i + 1}页评论')
  48.         time.sleep(1)
  49.     # 写入Excel
  50.     wb = Workbook()
  51.     ws = wb.active
  52.     write_to_excel(comment_data, ws)
  53.     home_dir = os.path.expanduser("~")
  54.     desktop_path = os.path.join(home_dir, 'Desktop')
  55.     wb.save(desktop_path + './comment_list.xlsx')
  56. if __name__ == '__main__':
  57.     main()
复制代码
  末了的结果会生存在桌面上,天生一个名为’comment_list’的excel文件。cookie、uid、id在下图位置找到。
   

  八、微博的限制

8.1 品评数量的限制

   在代码中,我们只爬取了前15页品评,这是因为微博设限,只能加载前300条品评。
  

8.2 访问的限制

   在试验的时候,我们可以发现第一个数据接口可以短时间内无穷次访问,但是其他的数据接口短时间内访问会出现如下图的结果。
  因此在代码实践过程中,我们需要格外注意这个限制。
  


有题目的可以一起交换

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

农妇山泉一亩田

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表