ToB企服应用市场:ToB评测及商务社交产业平台

标题: Python爬虫——1爬虫根本(一步一步慢慢来) [打印本页]

作者: 灌篮少年    时间: 2024-7-22 17:39
标题: Python爬虫——1爬虫根本(一步一步慢慢来)
一、爬虫是什么? (spider)

Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的根本知识和步骤:


主要特点和功能:

工作原理:


应用举例:



二、根本知识

1.URL:

URL(同一资源定位符)是用于标识和定位互联网上资源的地址。它是通过一种标准化的格式来描述网络资源的位置和访问方式。URL通常由多个部门组成,包罗协议、域名或IP地址、路径、查询参数和片段等,详细格式如下:
  1. scheme://host:port/path?query#fragment
  2. https://mp.csdn.net/mp_blog/creation/editor?spm=1001.2014.3001.4503#本网站
复制代码
URL被广泛用于网页欣赏、API调用、文件下载等场景,是互联网上资源定位的标准方式。欣赏器和各种网络应用程序通过解析和使用URL来访问并获取所需的网络资源。
三、前端代码

我们使用爬虫的时候会需要我们解析前端代码,我们使用爬虫时相识前端代码是必须的。
  1. <!DOCTYPE html> 声明为 HTML5 文档
  2. <html>..</html> 是网页的根元素
  3. <head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
  4. <title>..<title> 元素描述了文档的标题
  5. <body>..</body> 表示用户可见的内容
  6. <div>..</div> 表示框架
  7. <p>..</p> 表示段落
  8. <ul>..</ul> 定义无序列表
  9. <ol>..</ol>定义有序列表
  10. <li>..</li>表示列表项
  11. <img src="" alt="">表示图片
  12. <h1>..</h1>表示标题
  13. <a href="">..</a>表示超链接
复制代码
四、合适的库

Python 中有许多强大的库可用于爬虫,其中最流行和常用的是 requests 和 Beautiful Soup(或 bs4)。




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4