怎样使用爬虫抓取多个页面的商品销量数据 - ToB企服应用市场:ToB评测及商务社交产业平台

复制代码

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random
def get_product_sales(base_url, total_pages):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
all_products = []
for page in range(1, total_pages + 1):
url = f"{base_url}?page={page}"
response = requests.get(url, headers=headers)
if response.status_code == 200:
print(f"正在抓取第 {page} 页")
soup = BeautifulSoup(response.text, 'html.parser')
products = soup.find_all('div', class_='product-item')
for product in products:
title = product.find('div', class_='product-title').get_text(strip=True)
sales = product.find('span', class_='sales-count').get_text(strip=True)
all_products.append({'title': title, 'sales': sales})
time.sleep(random.uniform(1, 3)) # 随机延时，避免被封
else:
print(f"第 {page} 页抓取失败")
return all_products
# 示例：抓取前5页的商品销量数据
base_url = "https://www.example.com/products"
total_pages = 5
products = get_product_sales(base_url, total_pages)
# 将结果保存到CSV文件
df = pd.DataFrame(products)
df.to_csv('product_sales.csv', index=False, encoding='utf-8')
print("数据已保存到 product_sales.csv")

复制代码

复制代码