Python爬取站长之家网页信息（附详细源码） - ToB企服应用市场:ToB评测及商务社交产业平台

Python学习交流Q群：903971231####
#导入库
import requests #requests库请求网页
from lxml import etree #进行文件格式解析
import pandas as pd #pandas库保存索引信息
设置headers与请求链接
```python
#设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}
```python
#requests请求链接
rq = requests.get(url,headers=headers).text

复制代码

/html/body/div[4]/div[3]/div[2]/ul

复制代码

li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

复制代码

python学习交流Q群：903971231####
#使用lxml模块中的etree方法将字符串转化为html标签
html = etree.HTML(rq)
#用xpath定位标签位置
li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")
#获取要爬取内容的详情链接
for li in li_list:
#爬取网站名称
sitename = li.xpath("./div[2]/h3/a/text()")[0]
#爬取网址
websites = li.xpath("./div[2]/h3/span/text()")[0]
#爬取Alexa周排名
Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0]
#爬取反链数
Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0]

复制代码

#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})
#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

复制代码

for a in range(15):
#爬取网站的网址并且循环爬取前15页的内容
url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)

复制代码

#导入库import requestsfrom lxml import etreeimport pandas as pd#初始列表sitename_oyr,websites_oyr, Alexa_oyr, Antichain_oyr = [], [], [], []#设置请求头headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}for a in range(15): #爬取网站的网址并且循环爬取前15页的内容 url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15) #requests请求链接 rq = requests.get(url,headers=headers).text #使用lxml模块中的etree方法将字符串转化为html标签 html = etree.HTML(rq) #用xpath定位标签位置 li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li") #获取要爬取内容的详情链接 for li in li_list: #爬取网站名称 sitename = li.xpath("./div[2]/h3/a/text()")[0] #爬取网址 websites = li.xpath("./div[2]/h3/span/text()")[0] #爬取Alexa周排名 Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0] #爬取反链数 Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0] #输出 print(sitename) print(websites) print(Alexa) print(Antichain) #将字段存入初始化的列表中 sitename_oyr.append(sitename) websites_oyr.append(websites) Alexa_oyr.append(Alexa) Antichain_oyr.append(Antichain)#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})
#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

复制代码