使用Python中的DrissonPage库爬取小说网站并保存章节内容(bqg) - ToB企服应用市场:ToB评测及商务社交产业平台

复制代码

复制代码

def fetch_links_data():
co = ChromiumOptions() # 创建Chromium选项实例
user_agent = f"{UserAgent().random}" # 生成随机的用户代理
print(user_agent) # 打印当前使用的用户代理
co.set_user_agent(user_agent=user_agent) # 设置浏览器的用户代理
# 初始化ChromiumPage实例，使用上面设置的选项
page = ChromiumPage(addr_or_opts=co)
url = "https://www.3bqg.cc/book/9753/" # 目标小说页面URL
tab = page.new_tab(url) # 在新的标签页中打开目标URL
tab.wait.load_start() # 等待页面加载开始
novel_name = tab.ele('x://div[@class="info"]/h1').text # 获取小说名称
print(novel_name) # 打印小说名称
# 创建小说对应的目录，如果已存在则不创建
novel_path = os.path.join(os.getcwd(), novel_name)
os.makedirs(novel_path, exist_ok=True)
print(novel_path) # 打印小说存储路径
last_link = tab.ele('x://div[@class="listmain"]/dl/dd[21]/a').attr('href') # 获取最后一个章节链接
print(last_link) # 打印最后一个章节链接
# 提取章节编号
chapter_number = int(last_link.split('/')[-1].split('.')[0])
# 构造所有章节的链接列表
all_chapter_links = [f"{url}{i}.html" for i in range(1, chapter_number + 1)]
print("所有链接获取完成")
tab.close() # 关闭当前标签页
return all_chapter_links, novel_path # 返回所有章节链接和小说目录路径

复制代码

复制代码

复制代码