利用python举行代理ip爬取
源码
- import requests
- import parsel
- import time
- pages = 4
- header = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54'
- }
- # 打开文件以写入模式
- with open('ip_ports.txt', 'w') as file:
- for page in range(1, pages + 1):
- print('正在爬取第{}页'.format(page))
- url = 'https://www.89ip.cn/index_{}.html'
- try:
- res = requests.get(url.format(page), headers=header, verify=False)
- res.raise_for_status() # 检查请求是否成功
- sel = parsel.Selector(res.text)
- ip_list = sel.xpath('//tr')[1:]
- for i in ip_list:
- ip = i.xpath('./td[1]/text()').get().strip()
- port = i.xpath('./td[2]/text()').get().strip()
- ip_port = f'{ip}:{port}\n'
- print(ip_port, end='')
- file.write(ip_port) # 将结果写入文件
- except requests.exceptions.RequestException as e:
- print(f'请求出错: {e}')
- time.sleep(1)
- print("爬取完成,结果已保存到ip_ports.txt文件中")
复制代码 源码讲解
这段代码是一个简单的Python爬虫程序,用于从指定的网站(https://www.89ip.cn/)抓取IP地址和端标语,并将结果保存到一个名为ip_ports.txt的文本文件中。以下是对代码的详细分析:
导入模块
- import requests
- import parsel
- import time
复制代码
- requests:用于发送HTTP哀求。
- parsel:用于剖析HTML内容。
- time:用于在哀求之间添加耽误。
界说变量
- pages = 4
- header = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54'
- }
复制代码
- pages:界说要爬取的页数,这里是4页。
- header:设置哀求头,模拟浏览器访问,以避免被网站屏蔽。
打开文件
- with open('ip_ports.txt', 'w') as file:
复制代码
- 使用with语句打开一个名为ip_ports.txt的文件,并以写入模式('w')打开。这样可以确保文件在操纵完成后主动关闭。
循环爬取每一页
- for page in range(1, pages + 1):
- print('正在爬取第{}页'.format(page))
- url = 'https://www.89ip.cn/index_{}.html'
复制代码
- 使用for循环遍历从1到pages(这里是4)的页码。
- 构造每一页的URL。
发送HTTP哀求
- try:
- res = requests.get(url.format(page), headers=header, verify=False)
- res.raise_for_status() # 检查请求是否成功
复制代码
- 使用requests.get发送GET哀求,并传递URL和哀求头。
- verify=False:禁用SSL证书验证(不推荐在生产情况中使用)。
- res.raise_for_status():查抄哀求是否乐成,如果失败则抛出异常。
剖析HTML内容
- sel = parsel.Selector(res.text)
- ip_list = sel.xpath('//tr')[1:]
复制代码
- 使用parsel.Selector剖析HTML内容。
- 使用XPath选择器提取所有[tr]元素,并跳过第一个(通常是表头)。
提取IP和端口
- for i in ip_list:
- ip = i.xpath('./td[1]/text()').get().strip()
- port = i.xpath('./td[2]/text()').get().strip()
- ip_port = f'{ip}:{port}\n'
- print(ip_port, end='')
- file.write(ip_port) # 将结果写入文件
复制代码
- 遍历每个[tr]元素,提取第一个和第二个[td]元素的文本内容(IP和端口)。
- 使用strip()去除空白字符。
- 将IP和端口格式化为字符串,并写入文件。
异常处理
- except requests.exceptions.RequestException as e:
- print(f'请求出错: {e}')
复制代码
- 捕捉并处理所有requests.exceptions.RequestException异常,打印错误信息。
添加耽误
- 在每次哀求后暂停1秒,以避免对目标网站造成过大压力。
完成提示
- print("爬取完成,结果已保存到ip_ports.txt文件中")
复制代码 总结
这段代码实现了一个简单的网页爬虫,用于从指定网站抓取IP地址和端标语,并将结果保存到本地文件中。通过使用requests库发送HTTP哀求,parsel库剖析HTML内容,并添加适当的耽误和异常处理,确保了爬虫的稳固性和可靠性。
代码安全性及意图
这段代码的意图是编写一个网络爬虫程序,用于从一个提供IP地址和端标语的网站(在这个例子中是https://www.89ip.cn/)抓取数据。爬虫程序的目标是主动访问网页,提取所需的信息(这里是IP地址和端标语),然后将这些信息保存到一个文本文件中,以便后续使用。
详细来说,这段代码的意图包罗:
- 主动化数据抓取:通过编写脚本主动访问网页并提取数据,而不是手动复制粘贴。
- 数据存储:将抓取到的IP地址和端标语保存到一个文本文件中,方便后续的数据处理或使用。
- 模拟浏览器行为:通过设置User-Agent哀求头,模拟浏览器访问,以避免被网站的反爬虫机制屏蔽。
- 错误处理:使用异常处理机制来捕捉和处理网络哀求中可能出现的错误,如连接失败、超时等。
- 服从爬虫礼仪:通过在每次哀求之间添加1秒的耽误,避免对目标网站造成过大的访问压力,这是一种服从网络爬虫礼仪的做法。
- 灵活性:通过界说变量pages来控制要爬取的页数,使得程序可以根据需要轻松地调整抓取的范围。
- 可读性和维护性:代码结构清晰,解释和打印语句有助于明确程序的执行流程和状态。
总的来说,这段代码的目标是实现一个简单、有用的网络爬虫,用于主动化地从特定网站抓取IP地址和端标语,并将这些数据保存到本地文件中。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |