OraclePython网络爬虫计划（二） - Powered by Discuz! Archiver

梦见你的名字 发表于 2025-4-18 19:59:33

Python网络爬虫计划（二）

目次

六、BeautifulSoup库
1、常见的提取分析网页内容的三种方式
（1）正则表达式
（2）BeautifulSoup库
（3）pyppeteer库中的元素查找函数
2、HTML中的tag
3、BeautifulSoup库的安装和导入
4、BeautifulSoup库分析过程
5、利用BeautifulSoup库分析HTML
6、BeautifulSoup库进阶

六、BeautifulSoup库

1、常见的提取分析网页内容的三种方式

（1）正则表达式

Python自带的re库中的正则表达式，对于网页内容的提取分析非常方便，而且速度极快，但是适应性较差，可能面对不同的页面，正则表达式就需要修改
（2）BeautifulSoup库

速度和正则表达式接近，但是还是没有正则表达式快
（3）pyppeteer库中的元素查找函数

速度较慢（约是正则表达式的百分之一）
2、HTML中的tag

当我们随机打开一个页面，右键页面空白处，然后点击查抄，我们就可以看到一个网页的源码，而在源码中，我们会发现源码中包罗许多的尖括号，即“<>”，这就是一个tag
大部分的tag都包罗<x>和</x>，只有极少数的只有一个<x>（这里的x就是tag的名字）
固然，tag也可以嵌套，即一个tag内里包罗另一个tag
不同的tag可能会包罗不同的功能，而有的tag内里会包罗一些属性，大概一些网站的路径（href，src等），我们可以根据某些特定的tag大概属性，来定位到，查找到我们想要的内容
3、BeautifulSoup库的安装和导入

我们利用pip命令来安装BeautifulSoup库
pip install beautifulsoup4 在Python中，我们需要如许导入BeautifulSoup库：
import bs4 4、BeautifulSoup库分析过程

①先把HTML文档装入一个BeautifulSoup对象中
②针对对象，我们利用find大概find_all等函数找到我们想要的tag
③找到tag后，可以再次利用find大概find_all等函数去找内部嵌套的tag大概干系的内容
5、利用BeautifulSoup库分析HTML

我们先创建一个HTML文档
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
</head>
<body>
<h1>这是一个网页</h1>
<a href="https://www.baidu.com">点我进入百度</a>
<a href="https://www.google.com">点我进入谷歌</a>
</body>
</html> 再在其当前文件创建一个py文件：
import bs4

Soup = bs4.BeautifulSoup(open(r"D:\学习\Python\001.html" , "r" , encoding = "utf-8") , "html.parser")
#"html.parser" 是一个解析器的名称，用于解析 HTML 文档
tags = Soup.find_all("a")    #如果只想输出第一个，就是用find函数

for tag in tags :
   print(tag.text)
输出：
https://i-blog.csdnimg.cn/direct/6c4dd5f1b3bb48c79012d05ba6264e49.png
固然，我们可以把第一行换成一个字符串，字符串内里包罗一个HTML文档，也可以指定一个网址，用getHTML()
6、BeautifulSoup库进阶

上面的代码只是探求一个tag的内容大概输出全部名字为x的一类tag，上面提到tag是可以嵌套的，而且tag拥有可以拥有许多属性（比如class，id等）那么我们怎么在众多的属性中和嵌套中找到我们想要的效果：
HTML代码：
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>test</title>
</head>
<body>
<span id="css">
   <p>这是一个p标签</p>
</span>
<span id="html">
   <div class="p1">这是一个div标签1</div>
   <div class="p2">这是一个div标签2</div>
   <div class="p3">这是一个div标签3</div>
   <div class="p4">
         <scy class="scy" id="hello">
            <a class="one" href="https://www.baidu.com">点我进入百度</a>
            <a class="two" href="https://www.google.com">点我进入谷歌</a>
         </scy>
   </div>

</span>
</body>
</html> Python代码：
import bs4

soup = bs4.BeautifulSoup(open(r"D:\学习\Python\001.html" , encoding = "utf-8") , "html.parser")
#打开文件并读取内容
diva = soup.find("span" , attrs = {"id" : "html"})
#先寻找一个id是html的span标签

if diva != None : #如果有符合要求的
for x in diva.find_all("div" , attrs = {"class" : "p4"}) :    #再在里面找有没有class是p4的div标签
   print(x.text)

   if x != None :    #这里x就是class是p4的div标签，在此基础上如果x存在
         for y in x.find_all("a" , attrs = {"class" : "one"}) :#就在x中找有没有class是one的a标签
            print(y.text)
            print(y["href"]) #输出符合条件的标签的href属性中的内容输出：
https://i-blog.csdnimg.cn/direct/276df7a7e6b342739c5b456b53646931.png
以上就是Python网络爬虫计划（二）的全部内容:)

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

Python网络爬虫计划（二）