Pod概述

冬雨财经 · 2023-3-15 06:09:35

Pod的类型

Pod的类型有如下两个：

自主式Pod：自主式Pod的含义简白来说就是不是被控制器管理的Pod，另一种就是被控制管理的Pod，不被控制器管理的Pod你会发现，它一旦死亡的话，就没有人把它拉起来，也不会进行重启，比如Pod死亡了，也不会去创建Pod副本，去满足它的期望值，这都是自主式Pod的缺点。
控制器管理的Pod：只要创建Pod就会创建Pause容器，如果已经创建了容器，会共用Pause的网络栈，共用Pause的存储卷，也就意味着创建的容器没有自己独立的IP地址，容器有的只是Pause的地址或者Pod的地址，容器之间互相隔离，但是容器之间的进程不隔离，比如一个容器里是php-fpm服务，一个容器里是nginx服务，nginx容器想要反向代理到php-fpm容器上只需要写localhost:9000即可，不需要写IP地址、映射等等。原因是因为两个容器都共享的Pause的网络栈，既然是共享容器之间都是可以见面的，也就意味着在同一个Pod里面，端口不能冲突，如果一个容器是80，另一个容器也是80，那这个端口是起不来的或者是起来以后无限重启。假如Pod挂载了一个存储，容器1和容器2都想去访问到这个存储，同理，容器1和容器2也会共享Pause的存储，也就意味着在同一个Pod里即共享网络又共享存储卷。

Pod的控制器类型

以下是Pod的控制器类型：

ReplicationController：ReplicationController用来确保容器应用的副本数始终保持在用户定义的副本数，即如果有容器异常退出，会自动创建新的Pod来替代；而如果异常多出来的容器也会被自动回收。在新版本的Kubernetes中建议使用ReplicationControlle；
ReplicaSet：跟ReplicationController没有本质的不同，只是名字不一样，并且ReplicaSet支持集合式的Selector，我们在创建Pod的时候会给它打标签例如：app=apache，version=v1，我们会为它打一堆的标签，当我们有一天想删除我们的容器或一些设施的时候。我可以这样去说。当app=apache，version=v1的时候，我要干嘛干嘛。
Deployment：虽然ReplicaSet可以独立使用，但一般还是建议使用Deployment来自动管理ReplicaSet，这样就无需担心跟其他机制的不兼容问题（比如ReplicaSet不支持rolling-update（滚动更新）但Deployment支持）。比如我们创建了两个Pod，两个Pod都是v1版，我们现在想要进行滚动更新，它先删除一个Pod或者是它先多一个Pod（多一个Pod是v2版，新版本），然后再把这个老旧Pod v1版删除，然后再创建一个Pod是v2版的，然后再删除一个旧的v1版的Pod，最终就会出现最新的版本状态了。为什么要把两个放在一起说呢？原因是Deployment并不支持Pod的创建。
- HAP（Horizo ntal Pod AutoScale）：Horizontal Pod Autoscaling仅适用于Deployment和ReplicaSet，在v1版本中仅支持根据Pod的CPU利用率扩缩容，在vlalpha版本中，支持根据内存和用户自定义的metric扩缩容。
StatefullSet：StatefulSet是为了解决有状态服务的问题（对应Deployments和ReplicaSets是为无状态服务而设计），其应用场景包括：
- 稳定的持久化存储：即Pod重新调度后还是能访问到相同的持久化数据，基于PVC来实现。
- 稳定的网络标志：即Pod重新调度后其PodName和HostName不变，基于Headless Service（即没有Cluster IP的Service）来实现。
- 有序部署，有序扩展：即Pod是有顺序的，在部署或者扩展的时候要依次定义的顺序依次进行（即从0到N-1，在下一个Pod运行之前所有之前的Pod必须都是Running和Ready状态），基于init containers来实现。为什么之前的Pod都必须是Running状态和Ready状态呢？是因为在大型集群中是有一定的启动顺序的，比如说一个nginx、一个apache，一个mysql，如果先起nginx，它会去解析apache，发现apache不在，所以要设置先后顺序。
- 有序收缩，有序删除：（即从N-1到0）
DaemonSet：DaemonSet确保全部（或者一些）Node上运行一个Pod的副本。当有Node加入集群时，也会为它们新增一个Pod。当有Node从集群移除时，这些Pod也会被回收。删除DaemonSet将会删除它创建的所有的Pod，这里面有一些说法，为什么说是全部（或者一些呢），因为我们在创建Pod的时候，会为Pod打一些污点，那这些污点可以是不被调度的，所以在DaemonSet创建的时候，这些打了污点的Node就不会创建Pod，但是正常情况下默认是，所有的Node都会被运行Pod，运行一个且只有一个需要注意。又假如我在一个Node上运行了好几个不同的Pod，你可以把这个好几个Pod里的主要进程给它提取出来，放到同一个Pod里面，不同容器上，那么这样的话也可以通过一个DaemonSet也可以去设置，当然也可以设置三个不同的DaemonSet。使用DaemonSet的一些典型用法：
- 运行集群存储daemon：例如在每个Node上运行glusterd、ceph。
- 在每个Node上运行日志收集daemon：例如fluentd、logstash。
- 在每个Node上运行监控daemon：例如Prometheus Node Exporter。
Job，Cronjob：Job负责批处理任务，即仅执行一次的任务，它保证批处理任务的一个或多个Pod成功结束。Cron Job管理基于时间的Job，举个例子，我想备份数据库，备份数据库完全可以把代码放到Pod里去运行，那我再放到Job里去执行一下，那我们的Job就可以正常运行，把我们的数据库备份出来，在Linux运行脚本不是也是一样的嘛？但是，我们这个Pod是可以重复利用的，这是之一，之二如果脚本执行意外退出是没办法重新执行的，但是Job如果判断这个脚本不是正常退出，那它就会重新执行一遍，直到正常退出为止，并且你还可以设置它的正常退出的次数，比如你正常退出2次，我才允许你这个脚本执行成功。即：
- 在给定时间点只运行一次
- 周期性地在给定时间点运行

Deployment和ReplicaSet滚动更新原理

　　假设我们创建了一个Deployment，它会去创建一个ReplicaSet，也就意味着这个ReplicaSet并不是我们自己定义的，它是由Deployment定义的，那ReplicaSet再去创建我们对应的Pod，先创建3个Pod，如果有一天跟Deployment说，把镜像给我更新成v2版，它会怎么做呢？

它会创建一个ReplicaSet，它会先启动第一个容器，镜像为v2版，然后退出一个v1版的容器，启动第二个容器v2版，会退出一个v1版的容器，启动第三个容器v2版，退出一个v1版的容器，达到滚动更新。

并且还可以回滚，比如v2版本有一些bug，它会去新建老旧版的v1版，然后删除新版的v2，依次类推，当回滚的时候，它并不会把老旧版本删掉，而是禁用，回滚的时候会启用老旧版本，达到回滚的目的。
HPA根据Pod的CPU利用率扩缩容原理

　　例如，我现在运行了一个ReplicaSet，ReplicaSet下面管理了两个Pod，然后我再定义一个HPA（HPA也是一个对象，需要被定义），HPA定义的是基于ReplicaSet去定义的，当我们的CPU大于80的时候，那就进行扩展，最大值是10个，最小值是2个，这是一种描述方式，cpu > 80；Max 10；Min 2。也就意味着HPA会去监控当前Pod的资源利用率，当CPU利用率达到80的时候，它会去新建Pod，直到达到它的最大值，当然，它创建了3个Pod的CPU利用率已经达不到80%了，它就不会创建了，当每创建一个时，它如果还是大于80%，它才会去创建，一旦Pod的CPU利用率变低了以后，Pod就会被回收，保持到最小值，所以这就达到了一个水平扩展的效果。
服务发现

　　客户端想要去访问一组Pod，记住是一组Pod，如果这些Pod不相干的话，是不能通过我们的service去代理的，那Pod必须要有相关性，比如说是我们的ReplicaSet、ReplicationController、Deployment创建的或者说有同一组标签，那都可以被我们的service所收集到，这些又衍生出来一个含义，service去收集这些Pod是通过我们的标签去选择到的。选择到以后，service会有自己的一个IP+端口，那我们访问service的IP+端口就会间接的访问到我们的Pod服务，并且这里是有一个RR（轮询）算法存在的，访问Pod1、Pod2、Pod3依次类推。
理解案例

　　假如我有一套上面架构图的集群，也就意味着，首先我要构建一个apache的集群，再构建一个mysql的集群，再构建一个squid的集群，然后再构建一个LVS，如果我想把这个架构放在K8S里运行的话，我们来看一下需要几步：第一步：mysql要先运行成一个Pod，当然我们mysql现在放在我们K8S中，放在我们的StatefullSet控制器里是可以做到的，但是集群化的话，不是那么方便，mysql封装完以后。
　　我们还有apache+fpm，既然有这么多节点，我们之前学过控制器，我们是不是可以在Deployment上去创建，也就是说我创建一个Deployment，Deployment会指定它的副本数目，指定3个副本，那这样的话就有三个不同的apache+fpm的Pod的存在了。
　　再往上会有三个squid，那么squid是不是也可以把它封装成Pod，通过控制器把它给控制，那LVS就可以靠我们集群本身的一个功能把它负载调度，那这样的话，会出现一种结构，你会发现不太好写，squid要写反向代理的话需要写三台机器，并且我们之前说过一个概念，Pod在退出以后，在重新建立以后，这个IP地址会变换对吧，除非你采用的是StatefullSet，但是在php-fpm里面是不是没有意义啊，所以怎么办呢？我们就可以在前端，在前面加一个service，这个service就是php-fpm的service，它会绑定php-fpm的标签，选择进行绑定，那squid想要进行反向代理的话就不需要去写php-fpm这3台php-fpm的地址了，因为我们一直在强调这个概念，php-fpm一旦死亡以后，我们控制器也会把它维持在3个副本，它会创建一个新的副本来取代死亡的副本，那取代它的副本跟现在的副本，它的IP是不一样的，那squid在里面填写的是它的目标IP的话，那就会出现问题，副本一换的话，我们squid里面的配置是不是得重新写，要重新修改，重启服务，这样不太友好，所以我们的squid里面写的是service php-fpm的地址，那这样的话，squid只需要指定到我们的service即可，并且php-fpm是一个Pod，mysql也是一个Pod，它们之间肯定会出现一定的关联，比如我们把我们的mysql部署在StatefullSet里面，那它的名称是不是就不会变啊，那我可以通过它的名称，去固定到我们对应的Pod上面，因为我之前提到过，K8S内部是一个扁平化的网络，那容器之间是能够互相访问的，所以这样我php-fpm里面写它的地址信息是没有问题的，那对于这三台squid来说，外网用户要访问对吧，我可以创建个service，已知绑定squid，通过去判断我们的squid的一些标签进行确定，那这样的话我们只需要把service暴露到外部即可，service其中有一种暴露模式叫NodePort，比如还可以通过我们的Ingrees等一些方案都可以做到，那这样的话我们就可以把这个架构完整的部署在我们的K8S集群中了，这也是我们的Pod与Pod的通讯方案，可以这么去做。
网络通讯模式

网络通讯模式简介

　　Kubernetes的网络模型假定了所有Pod都在一个可以直接连通的扁平的网络空间中，这在GCE（Google Compute Engine）里面是现成的网络模型，Kubernetes假定这个网络已经存在。而在私有云里搭建Kubernetes集群，就不能假定这个网络已经存在。我们需要自己实现这个网络假设，将不同节点的Docker容器之间的互相访问先打通，然后运行Kubernetes。

网络通讯模式

同一个Pod内的多个容器之间：localhost
各Pod之间的通讯：Overlay Network
Pod与Service之间的通讯：各节点的IP tables格则

网络解决方案Kubernetes + Flannel

　　Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务，简单来说，它的功能是让集群中的不同节点主机创建的Docker容器都具有全集群唯一的虚拟IP地址。而且它还能再这些IP地址之间建立一个覆盖网络（Overlay Network），通过这个覆盖网络，将数据包原封不动地传递到目标容器内。

　　上述的图中，分别是以IP为192.168.66.11/24和192.168.66.12/24的两台主机，两台主机各运行了两个Pod，首先在我们真实的主机上会去安装一个Flanneld的守护进程，这个进程会去监听一个端口，这个端口就是用于后期转发数据包以及接收数据包的服务端口，一旦Flanneld这个进程启动以后，它会开启一个监听端口，Flannel0，这个Flannel0专门去收集Docker0转发出来的数据报文，Docker0会分配自己的IP到对应的Pod上。
　　如果是同一台主机不同的Pod访问的话，它走的是Docker0的网桥，因为Pod在同一个网桥下，不同的子IP，也就是在真实的服务器中已经完成了一次数据包转换。
　　如何通过跨主机还可以通过对方的IP到达呢？首先假设Web app2想把数据包发送到Backend，它的数据包要写自己源地址10.1.15.2/24，目标要写10.1.20.3/24，因为目标网段跟我不是同一个网段，所以10.1.15.2.24发送到自己的网段Docker0，Docker0会有自己对应的钩子函数，会把数据包抓到Flannel0里面，Flannel0里面会有一堆的路由表记录，是从ETCD数据库里面获取到的，写入到我们当前的路由表里，判断到底路由到哪台机器，因为Flannel0是Flanneld的一个进程，所以数据包会转发到Flanneld，到Flanneld它会对数据报文进行封装，下面解释如何封装：

　　Mac部分到我们的三层，三层写的是源是192.168.66.11，目标写的是192.168.66.12，下一层封装的是udp的数据报文，也就意味着Flanneld它使用的是udp的数据报文，去转发这些数据包的，因为更快，毕竟在同一个局域网内部，在下一层又封装了一层新的三层信息，源是10.1.15.2，目标是10.1.20.3，封装到这一层以后，外面封装了一个数据包实体Payload，然后转发到192.168.66.12/24。
　　所以数据包是肯定能够到192.168.66.12/24的，并且它的目标端口是Flanneld的端口，所以这个数据包会被Flanneld所截获，截获以后它会拆封，它知道这个是干嘛的，会进行拆封，拆封完以后会被转发到Flannel0，Flannel0会转发到docker0，docker0自然而然会转发到Backend，并且数据包是经过二次解封的，第一层的信息，docker0是看不见的，docker0看的是第二层信息，所以docker0一看源是10.1.15.2/24的机器发过来的，目标找的是我自己下面的机器地址，这样的话就可以实现跨主机的扁平化网络。
Etcd在这里的作用，为Flannel提供说明：

存储管理Flannel可分配的IP地址段资源。
监控Etcd中每个Pod的实际地址，并在内存中建立维护Pod节点路由表。

网络通讯方式总结

同一个Pod内部通讯
- 同一个Pod共享同一个网络命名空间，共享同一个Linux协议栈。
Pod1和Pod2通讯，在同一台机器
- Pod1与Pod2不在同一台主机，Pod的地址是与docker0在同一个网段的，但docker0网段与宿主机网卡是两个完全不同的IP网段，并且不同的node之间的通信只能通过宿主机的物理网卡进行。将Pod的IP和所在的node的IP关联起来，通过这个关联让Pod可以互相访问。
Pod1和Pod2通讯，不再同一台机器
- Pod1与Pod2在同一台机器，由docker0网桥直接转发请求至Pod2，不需要经过Flannel。
Pod至Service的网络
- 目前基于性能考虑，全部为IP tables（现在版本都是通过LVS）维护和转发
Pod到外网
- Pod向外网发送请求，查找路由表，转发数据包到宿主机的网卡，宿主网卡完成路由选择后，IP tables执行Masquerade，把源IP更改为宿主网卡的IP，然后向外网服务器发送请求。
外网访问Pod
- 外网访问Pod通过Service。

组件通讯示意图

在我们K8S里面，它有三层网络：

节点网络
Pod网络
Service网络

　　需要注意的是真实的物理的网络只有一个就是节点网络，也就意味着我们在构建服务器的时候，只需要一张网卡就可以去实现，并不是说多张网卡不行，一张网卡就可以实现，Pod网络是一个虚拟网络，Service网络也是一个虚拟网络，这里可以理解为是一个内部网络，所有的Pod都会在这个扁平化的网络中进行通讯，如果想访问Service的话，那就需要在Service的网络中去访问，Service在去跟后端的Pod通过对应的IP tables或者说通过LVS的转换去达到，最新版会用到LVS转换，这样效率会更高。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

		自动登录	找回密码
密码			立即注册

Pod概述

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云