Python 爬虫零底子教程(1)：爬单个图片

tsx81429 · 2024-5-13 22:42:05

代码：

import requests
url = 'https://cdn.pixabay.com/photo/2018/01/04/07/59/salt-3060093_960_720.jpg'
data = requests.get(url).content
f = open('1.jpg', 'wb')
f.write(data)
f.close()
print('OK')

复制代码

表明代码

变量

代码中的 url、data、f 都是变量，也可以给他们取别的名字：a、b、c，大概x、y、z 都可以

url = 'https://cdn.pixabay.com/photo/2018/01/04/07/59/salt-3060093_960_720.jpg'

复制代码

这行代码表示把图片的网址赋值给变量 url。
在之后的代码中 url 就代指这个网址。
Python 用等号=来给变量赋值，等号左边是变量名，等号右边是存储在变量中的值。
Python 的变量赋值不需要声明变量范例。
变量定名规则：

只能包含字母、数字和下划线，并且不能以数字开头。
区分巨细写字母，如果写错了巨细写，程序会报错。
不能利用保留字

通常以“小写字母，单词之间用 _ 分割”的方式来给普通变量名。
this_is_a_var

字符串

'https://cdn.pixabay.com/photo/2018/01/04/07/59/salt-3060093_960_720.jpg'

复制代码

就是字符串。
在 Python 中，可以用成对的单引号( ' )、双引号( " )、三引号( ''' 或 """ ) 来表示字符串，此中三引号可以跨行。
字符串是编程语言中表示文本的数据范例。

requests 库

利用之前要先导入import requests 。（别的Python编程工具需要先安装 requests，Anaconda不消）

data = requests.get(url).content

复制代码

可以分成两段：

response = requests.get(url)
data = response.content

复制代码

response 和 data 当然都是变量
response = requests.get() 表示利用requests库的get函数，获取网页，并赋值给变量 response
data = response.content 表示把变量response的数据以二进制的格式返回，赋值给变量data
requests.get(url).content 以后会经常用到。

文件的打开

f = open('1.jpg', 'wb')

复制代码

这行代码表示在当前目次打开一个名为1.jpg 的文件，赋值给变量 f。如果该文件已存在则将其覆盖，如果该文件不存在，创建新文件。
函数 open() 的语法为： open(路径+文件名,读写模式)
如果没有“路径”则是在当前目次。当前目次的意思是包含这段代码的 .py 文件所在的文件夹。
路径+文件名与读写模式都是字符串范例。
读写模式有许多种，写爬虫一样平常用 wb 模式：以二进制格式打开一个文件只用于写入，如果该文件已存在则将其覆盖，如果该文件不存在，创建新文件。

文件的写入

f.write(data)

复制代码

表示将data写入 f 文件。
write() 方法，将字符串写入一个打开的文件。

文件的关闭

f.close()

复制代码

表示关闭文件 f。文件打开后，无论进行读、写或其他什么操纵，最后都要关闭。

输出到屏幕

print('OK')

复制代码

在屏幕上输出字符串 OK。
print 用于打印输出。在 Python2.x 版本可以 print 'ok' 也可以 print('OK') ，而在 Python3.x 必须 print('OK') 。
这句代码的作用是告诉我们全部代码已经执行完毕，图片下载好了。没有这句也不影响下载图片。

Python 底子语法：

每一行是一个语句，语句无需以；结尾。不需要大括号 {} 来控制类、函数以及其他逻辑判定。
Python 用缩进表示逻辑层次。当语句以冒号 : 结尾时，下一行代码需要缩进。
没有规定缩进是几个空格还是Tab，但是所有代码的缩进必须雷同。约定俗成是4个空格的缩进。
缩进很方便，但也有坏处，Python 代码“复制－粘贴”后需要重新查抄缩进是否正确。

运行代码

打开Spyder，点击左上角的“新建”。
把最上面的代码复制到左边的编辑区，点击“运行”

在弹出的对话框里输入文件名，以 .py 为后缀，选择存放位置，点击存储。

等待几秒钟，Spyder的右侧输出OK，阐明图片下载成功。

图片下载到和上面的 .py 文件雷同的目次。文件名为 1.jpg

好啦，第一个 Python 爬虫成功了。
可以把 url 的赋值改为其他图片的地点来下载其他图片。
怎样获取图片地点：网页上右键点击图片，选择“复制图片地点”

你可能觉得用爬虫下载图片还不如手动下载方便。
由于这才刚刚开始，后面我们会给爬虫添加自动化，还可以进行筛选。

Spyder 简介

左边是代码编辑区。
右边下半部分是 Ipython ，左边代码的 print 都会显示在 Ipython。
Ipython 还可以进行一行行的交互。

右边的上半部分不常用，可以一连点击 X 将其关闭

最后变成这样：

此文章是我原创，20180114 发布于我在其他平台的博客，现同步在此

我的公号：v1coder
我的博客：v1coder.com
我的GitHub：https://github.com/v1coder

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Python 爬虫零底子教程(1)：爬单个图片

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云