ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词 [打印本页]

作者: 温锦文欧普厨电及净水器总代理    时间: 2024-6-15 02:31
标题: 【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词
在本文中,我将介绍如何使用Python编写一个网络爬虫,从百度学术页面提取研究论文的标题、作者、摘要和关键词。我们将使用 requests和 BeautifulSoup库来实现这一目标。
安装所需库

首先,确保已安装所需的Python库:
  1. pip install requests beautifulsoup4
复制代码
编写爬虫

以下是一个示例脚本:
  1. import requests
  2. from bs4 import BeautifulSoup
  3. # 百度学术页面URL
  4. url = "https://xueshu.baidu.com/usercenter/paper/show?paperid=7ea6e4650085a4bf2457468cc815cabe&site=xueshu_se"
  5. # 请求头
  6. headers = {
  7.     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
  8. }
  9. # 发送请求
  10. response = requests.get(url, headers=headers)
  11. response.encoding = 'utf-8'
  12. if response.status_code == 200:
  13.     # 解析HTML
  14.     soup = BeautifulSoup(response.text, 'html.parser')
  15.     # 提取标题
  16.     title_tag = soup.find('a', {'data-click': "{'act_block':'main','button_tp':'title'}"})
  17.     title = title_tag.get_text(strip=True) if title_tag else "未找到标题"
  18.     # 提取作者
  19.     author_tag = soup.find('p', {'class': 'author_text'})
  20.     author = author_tag.get_text(strip=True) if author_tag else "未找到作者"
  21.     # 提取摘要
  22.     abstract_tag = soup.find('p', {'class': 'abstract'})
  23.     abstract = abstract_tag.get_text(strip=True) if abstract_tag else "未找到摘要"
  24.     # 提取关键词
  25.     keywords_tag = soup.find('div', {'class': 'kw_wr'})
  26.     if keywords_tag:
  27.         keywords = [keyword.get_text(strip=True) for keyword in keywords_tag.find_all('a')]
  28.         keywords = ', '.join(keywords)
  29.     else:
  30.         keywords = "未找到关键词"
  31.     # 打印提取结果
  32.     print("标题:", title)
  33.     print("作者:", author)
  34.     print("摘要:", abstract)
  35.     print("关键词:", keywords)
  36. else:
  37.     print("无法访问网页")
复制代码
代码表明

运行脚本

将上述代码保存为一个Python文件,比方scraper.py,然后在命令行中运行:
  1. python scraper.py
复制代码
结果




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4