【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词 ...

打印 上一主题 下一主题

主题 534|帖子 534|积分 1602

在本文中,我将介绍如何使用Python编写一个网络爬虫,从百度学术页面提取研究论文的标题、作者、摘要和关键词。我们将使用 requests和 BeautifulSoup库来实现这一目标。
安装所需库

首先,确保已安装所需的Python库:
  1. pip install requests beautifulsoup4
复制代码
编写爬虫

以下是一个示例脚本:
  1. import requests
  2. from bs4 import BeautifulSoup
  3. # 百度学术页面URL
  4. url = "https://xueshu.baidu.com/usercenter/paper/show?paperid=7ea6e4650085a4bf2457468cc815cabe&site=xueshu_se"
  5. # 请求头
  6. headers = {
  7.     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
  8. }
  9. # 发送请求
  10. response = requests.get(url, headers=headers)
  11. response.encoding = 'utf-8'
  12. if response.status_code == 200:
  13.     # 解析HTML
  14.     soup = BeautifulSoup(response.text, 'html.parser')
  15.     # 提取标题
  16.     title_tag = soup.find('a', {'data-click': "{'act_block':'main','button_tp':'title'}"})
  17.     title = title_tag.get_text(strip=True) if title_tag else "未找到标题"
  18.     # 提取作者
  19.     author_tag = soup.find('p', {'class': 'author_text'})
  20.     author = author_tag.get_text(strip=True) if author_tag else "未找到作者"
  21.     # 提取摘要
  22.     abstract_tag = soup.find('p', {'class': 'abstract'})
  23.     abstract = abstract_tag.get_text(strip=True) if abstract_tag else "未找到摘要"
  24.     # 提取关键词
  25.     keywords_tag = soup.find('div', {'class': 'kw_wr'})
  26.     if keywords_tag:
  27.         keywords = [keyword.get_text(strip=True) for keyword in keywords_tag.find_all('a')]
  28.         keywords = ', '.join(keywords)
  29.     else:
  30.         keywords = "未找到关键词"
  31.     # 打印提取结果
  32.     print("标题:", title)
  33.     print("作者:", author)
  34.     print("摘要:", abstract)
  35.     print("关键词:", keywords)
  36. else:
  37.     print("无法访问网页")
复制代码
代码表明


  • 哀求头设置:使用哀求头模仿浏览器哀求,避免被网站屏蔽。
  • 解析网页内容:使用BeautifulSoup解析HTML,提取所需信息。
  • 处理未找到元素的情况:如果元素未找到,输出相应的提示信息。
运行脚本

将上述代码保存为一个Python文件,比方scraper.py,然后在命令行中运行:
  1. python scraper.py
复制代码
结果




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

温锦文欧普厨电及净水器总代理

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表