Python爬虫——1爬虫根本（一步一步慢慢来）

灌篮少年 · 2024-7-22 17:39:50

一、爬虫是什么？（spider）

Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的根本知识和步骤：

主要特点和功能：

工作原理：

应用举例：

二、根本知识

1.URL：

URL（同一资源定位符）是用于标识和定位互联网上资源的地址。它是通过一种标准化的格式来描述网络资源的位置和访问方式。URL通常由多个部门组成，包罗协议、域名或IP地址、路径、查询参数和片段等，详细格式如下：

复制代码

协议（Scheme）：指定访问资源所使用的协议或者服务类型。常见的协议包罗：
- http：超文本传输协议，用于传输网页数据。
- https：安全超文本传输协议，使用SSL加密传输网页数据，更安全。
- ftp：文件传输协议，用于在网络上传输文件。
主机（Host）：指定资源所在的主机名或者IP地址。比方，www.example.com 或者 192.168.1.1。
端口（Port，可选）：指定访问资源时使用的端标语。大部门情况下，如果未指定，默认使用协议默认的端口（如HTTP默认端口为80，HTTPS默认端口为443）。
路径（Path，可选）：指定服务器上资源的详细路径或者文件名。比方，/index.html。
查询参数（Query，可选）：通报给服务器的额外参数，通常以键值对的情势存在，多个参数之间使用 & 分隔。比方，?page=2&category=python。
片段（Fragment，可选）：标识资源中的一个片段或位置，通常用于直接定位到网页的某个部门。比方，#section2。

URL被广泛用于网页欣赏、API调用、文件下载等场景，是互联网上资源定位的标准方式。欣赏器和各种网络应用程序通过解析和使用URL来访问并获取所需的网络资源。
三、前端代码

我们使用爬虫的时候会需要我们解析前端代码，我们使用爬虫时相识前端代码是必须的。

复制代码

四、合适的库：

Python 中有许多强大的库可用于爬虫，其中最流行和常用的是 requests 和 Beautiful Soup（或 bs4）。

Beautiful Soup：用于解析HTML或XML文档，提取数据。
1. pip install requests
2. pip install Beautiful Soup
复制代码
实行以上命令载入库（win+r，输入cmd，输入实行）

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复