一文速通Python并行计算：01 Python多线程编程-基本概念、切换流程、GIL锁 ...

泉缘泉 · 2025-3-23 23:30:47

一文速通 Python 并行计算：01 Python 多线程编程-基本概念、切换流程、GIL 锁机制和生产者与消耗者模子

摘要：

多线程允许步调同时实行多个任务，提拔服从和相应性。线程分为新建、就绪、运行、阻塞和死亡五种状态。Python的GIL锁限定多线程并行实行，适合I/O麋集型任务。生产者-消耗者模子通过共享缓冲区和条件变量实现线程协作，解决数据共享题目。

正文

1.多线程的基本概念

多线程雷同于同时实行多个不同步调，多线程运行有如下优点：
（1）利用线程可以把占据长时间的步调中的任务放到背景去处置惩罚；
（2）用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事故的处置惩罚，可以弹出一个进度条来表现处置惩罚的进度；
（3）步调的运行速度大概加快
在一些等待的任务实现上如用户输入、文件读写和网络收发数据等，线程就比较有效了。在这种情况下我们可以开释一些珍贵的资源如内存占用等等。
线程在实行过程中与进程还是有区别的。每个独立的进程有一个步调运行的入口、顺序实行序列和步调的出口。但是线程不可以或许独立实行，必须依存在应用步调中，由应用步调提供多个线程实行控制。

2.Python 中的多线程

2.1 基本概念

线程，有时被称为轻量进程，是步调实行流的最小单元。一个标准的线程由线程 ID，当前指令指针(PC），寄存器聚集和堆栈组成。线程是进程中的一个实体，是被系统独立调度和分派的基本单元，线程不拥有私有的系统资源，但它可与同属一个进程的别的线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程，同一进程中的多个线程之间可以并发实行。
线程是步调中一个单一的顺序控制流程。进程内有一个相对独立的、可调度的实行单元，是系统独立调度和分派 CPU 的基本单元指令运行时的步调的调度单元。在单个步调中同时运行多个线程完成不同的工作，称为多线程。Python 多线程用于 I/O 操作麋集型的任务，如 SocketServer 网络并发，网络爬虫。
2.2 线程的不同状态和切换流程

步调中包含多个线程时，CPU 不是一直被特定的线程霸占，而是轮流实行各个线程。那么，CPU 在轮换实行线程的过程中，即从创建到消亡的整个过程，大概会历经 5 种状态，分别是新建、就绪、运行、阻塞和死亡。

线程的新建状态:无论是通过 Thread 类直接实例化对象创建线程，还是通过继承自 Thread 类的子类实例化创建线程，新创建的线程在调用 start() 方法之前，不会得到实行，此阶段的线程就处于新建状态。
线程的就绪状态:当位于新建状态的线程调用 start() 方法后，该线程就转换到就绪状态。所谓就绪，就是告诉 CPU，该线程已经可以实行了，但是详细什么时候实行，取决于 CPU 什么时候调度它。换句话说，如果一个线程处于就绪状态，只能说明此线程已经做好了准备，随时等待 CPU 调度实行，并不是说实行了 start() 方法此线程就会立即被实行。
线程的运行状态:当位于就绪状态的线程得到了 CPU，并开始实行 target 参数实行的目标函数或者 run() 方法，就表明当火线程处于运行状态。但如果当前有多个线程处于就绪状态（等待 CPU 调度）时，处于运行状态的线程将无法一直霸占 CPU 资源，为了使别的线程也有实行的机会，CPU 会在肯定时间内强制当前运行的线程让出 CPU 资源，以供其他线程利用。**
线程的阻塞状态:当 CPU 对多个线程进行调度时，对于得到 CPU 调度却没有实行完毕的线程，就会进入阻塞状态。现在几乎所有的桌面和服务器操作系统，都采用的是抢占式优先级调度策略。即** CPU 会给每一个就绪线程一段固定时间来处置惩罚任务，当该时间用完后，系统就会阻止该线程继续利用 CPU 资源，让其他线程得到实行的机会**。对于详细选择那个线程上 CPU，不同的平台采用不同的算法，比如先进先出算法（FIFO）、时间片轮转算法、优先级算法等，每种算法各有优缺点，实用于不同的场景。

除此之外，如果处于运行状态的线程发生如下几种情况，也将会由运行状态转到阻塞状态：
以上 4 种大概发生线程阻塞的情况，解决措施分别如下：

线程死亡状态：对于得到 CPU 调度却未实行完毕的线程，它会转入阻塞状态，待条件成熟之后继续转入就绪状态，重复争取 CPU 资源，直到其实行结束。实行结束的线程将处于死亡状态。线程实行结束，除了正常实行结束外，如果步调实行过程发生异常（Exception）或者错误（Error），线程也会进入死亡状态。

对于处于死亡状态的线程，有以下 2 点需要注意：

①主线程死亡，并不意味着所有线程全部死亡。也就是说，主线程的死亡，不会影响子线程继续实行；反之也是如此。
②对于死亡的线程，无法再调用 start() 方法使其重新启动，否则 Python 解释器将抛出 RuntimeError 异常。

2.3 Pythn 中的 GIL 锁机制

GIL，全称是 Global Interpreter Lock，也叫做全局解释器锁。对于 CPython，所有的 Python 线程都需要在解释器这个假造机中运行，而在运行之前都要先获取 GIL 这个锁，然后每实行 100 个字节码，解释器就自动开释 GIL 锁，让别的线程有机会实行。因此即使你有多个 CPU 核，多个线程在同一个 Python 假造机中也应该是交替实行的。
这就意味着：同一时间，只能有一个线程在实行的状态。GIL 对单线程步调没有影响，但会成为 CPU 麋集和多线程代码的性能瓶颈。即使在多线程布局的代码中，在同一时刻 GIL 也只允许一个线程在实行状态，因此，GIL 成为了 Python 不受欢迎的一个特性。
CPU 麋集型步调是指步调运行过程中 CPU 是性能瓶颈，该类步调会涉及大量数学计算，例如矩阵乘法/搜索/图像处置惩罚等。I/O 麋集型步调是指步调耗费了大部分时间来等待 I/O 事故，I/O 事故大概来自用户/文件/数据库/网络等。在从数据源获取到文件之前，I/O 麋集型步调需要等待大量的时间；因为在 I/O 事故就绪前，数据源需要进行自己的处置惩罚过程。例如：用户耗费时间思考向输入提示符输入什么内容(会占用时间)，或者数据库在接收到检索哀求后运行自己的步调(会占用时间)。
解决 GIL 的方法包括利用多进程、利用其他 Python 解释器或利用 C 扩展模块等。
2.4 生产者-消耗者模子

生产者-消耗者模式是一种经典的多线程计划模式，用于解决多个线程之间的数据共享和协作题目。在生产者-消耗者模式中，有两类线程：生产者线程和消耗者线程。它们之间通过共享一个缓冲区（或队列）来协作，生产者将数据放入缓冲区，消耗者从缓冲区取出数据并进行处置惩罚。
生产者-消耗者模式包括以下几个基本要素：

（1）缓冲区（或队列）：用于存储生产者生成的数据，以及消耗者待处置惩罚的数据。缓冲区可以是有界的（固定容量）或无界的（容量动态增长）。
（2）生产者：负责生成数据并将数据放入缓冲区。生产者线程通常会等待，如果缓冲区已满，则等待消耗者取走数据后继续生产。
（3）消耗者：负责从缓冲区取出数据并进行处置惩罚。消耗者线程通常会等待，如果缓冲区为空，则等待生产者放入数据后继续消耗。
（4）互斥锁：用于掩护对缓冲区的访问，确保同时只有一个线程可以访问缓冲区。
（5）条件变量：用于实现线程的等待和唤醒机制。生产者线程可以等待缓冲区不满，而消耗者线程可以等待缓冲区不空。

下一节中，我们将通过生产者-消耗者模子讲解 Python 多线程中的各个概念和应用方法。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

一文速通Python并行计算：01 Python多线程编程-基本概念、切换流程、GIL锁 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云