ToB企服应用市场:ToB评测及商务社交产业平台

标题: Altair组件介绍:PBS Professional [打印本页]

作者: 钜形不锈钢水箱    时间: 2024-10-13 21:40
标题: Altair组件介绍:PBS Professional
Altair PBS Professional

PBS(Portable Batch System) Professional 是一个分布式工作负载管理系统,用于管理和监控盘算工作负载。PBS 由守护进程和命令组成,用于管理一台或多台盘算机上的作业。您可以使用 PBS 来完成提交、查询、更改、监控、移动和删除作业等使命。您可以在一个或多个云中运行作业,可以管理作业本钱,还可以使用模拟来调整 PBS 配置。
PBS可以将你从完成工作的繁琐过程中解放出来;你不必要将每项使命交给精确的机器,不必要来回复制输入和输出,也不必要等待特定的机器可用。您只需为希望实行的使命指定要求,然后将使命交给 PBS。PBS 会保留每个使命,直到有空位为止,然后负责将输入文件复制到实行目录,实利用命,并将输出返回给你。
PBS会跟踪哪些硬件可用,以及全部等待和正在运行的使命。PBS 会将每个使命的要求与合适的硬件和时间段相匹配,并确保使命按照网站的计谋运行。PBS 还能最大限度地提高使用率和吞吐量。
PBS 使命和组件

PBS 使命

PBS 是一个分布式工作负载管理系统。PBS 管理和监控一台或多台盘算机的盘算工作量。PBS 实行以下使命:
PBS 收集要在一台或多台盘算机上运行的作业(工作或使命)。用户向 PBS 提交作业,在 PBS 准备好运行作业之前,这些作业会被排队等候。
PBS 根据作业要求的资源和站点管理员指定的计谋,选择要运行的作业以及运行的时间和地点。PBS 允许管理员对作业举行优先排序,并以多种方式分配资源,以最大限度地提高服从和/或吞吐量。
PBS 可跟踪系统资源、实利用用计谋并报告使用情况。PBS 跟踪作业完成情况,确保作业在系统停止的情况下仍能运行。
PBS 组件

PBS 由一系列命令和系统守护进程/服务组成,如图所示:

作业提交到 PBS 服务器。调度步调选择运行作业的时间和地点,服务器将作业发送到 MoM。PBS 命令与服务器通信。
服务器、调度步调和通信守护进程在服务器主机上运行。实行作业的机器称为实行主机。每个实行主机都运行一个 MoM守护进程。服务器主机可运行 MoM 守护进程。一台服务器可管理任意数量的MoM守护进程。命令可从服务器主机、实行主机和客户端的主机运行。我们把我们把服务器、调度步调、MoM 和通信守护进程的每个实例都称为PBS complex。
PBS 服务器吸收作业,保存等待实行的作业,在轮到实行时发送作业,并将作业发送给调度器。并通过监控综合系统的故障和在必要时重新运行作业来确保工作的完成。必要时重新运行作业,确保工作完成。即使命令会影响其他守护进程,它们也会与服务器通信。
调度步调根据站点管理员指定的计谋运行作业。调度步调将每个作业的要求与可用资源相匹配,并根据计谋确定作业的优先级和分配资源。
PBS有一个默认的调度器;如果要分别调度各个分区,可以添加任意数量的额外调度器,称为多分区调度器。每个 PBS 调度器都遵循自己的调度计谋。每个调度步调守护进程都实行由你定义的计谋,该计谋控制每个作业何时运行以及在哪些资源上运行。
MoM代外貌向机器的小型服务器(Machine-oriented Mini-server)。
MoM负责管理发送到实行主机的使命。每个实行主机上的作业由一个MoM 管理。MoM将文件分阶段输入,运行准备,启动每个作业,监控作业,将文件分阶段输出并将输出结果返回给作业提交者,运行每个作业,返回给作业提交者,运行,并在作业结束后举行清算。MoM还可以运行钩子。
通信守护进程 pbs_comm 负责处理其他 PBS 守护进程之间的通信。
部署方式




参考资料

PBS 云

PBS Cloud 允许 PBS Professional 在云中新增节点(以下简称bursting),以便您的站点能够处理需求高峰。PBS Professional使用 Simulate 和两个名为 cloud_hook 和 cloud_ext_hook 的钩子来分析云队列中的作业、估算需求并指定实例类型和操纵系统映像的所需云节点。PBS 调度器在云节点中运行云队列中的作业。PBS Cloud 会根据当前负载和节点等待作业出现的时间动态调整云节点的数量。
PBS Cloud 提供了云接口框架。PBS Cloud 支持多个云供应商以及私有OpenStack云。你可以同时使用多个供应商,并在每个供应商处使用多个账户。PBS Cloud 还支持按需、可抢占(GCP)、定点(AWS 和 Azure)和裸机的实例类型。PBS Cloud 支持使用 MPI 和高速网络(如 InfiniBand)的作业。
PBS 云必要 Simulate 来实现云bursting。Simulate 会盘算必要bursting多少个节点,以及每次bursting时可以运行哪些作业。
PBS Cloud 可以处理多个 PBS Professional complex的云bursting,只要全部方案都有不同(唯一)的 API KEY。
云Cloud术语

在云中创建节点并将其添加到 PBS complex的操纵
主云bursting钩子称为 “cloud_hook”,在安装 PBS Cloud 时安装。PBS 云bursting钩子通过 PBS Cloud 和云队列管理云节点和作业。您可以为钩子要处理的每个场景指定详细信息。主云bursting钩子处理全部实例的bursting,但裸机除外,裸机由扩展云bursting钩子处理。
扩展云bursting钩子称为 “cloud_ext_hook”,是主云bursting钩子的修改版。扩展 PBS 云bursting钩子可处理裸机实例的bursting。
在云硬件上创建的虚拟机或实例。每个云节点都使用为使命指定的操纵系统镜像举行bursting。节点启动后,将通过云启动脚本对其举行初始化,并提供运行 PBS 作业所需的统统。
每个场景都使用自己的云队列。该场景的作业在此排队。云作业必须提交到相应的云队列。
安装 PBS Professional 服务器/调度步调的节点。
实例的规格,包括 CPU、内存、存储容量、网络技术等特性。PBS 云管理员指定作业提交者可使用的实例类型。
作业只能哀求和使用管理员提供的实例类型。
PBS 云支持按需、可抢占(GCP)、定点(AWS 和 Azure)和裸机的实例类型。
云中预配置的操纵系统映像,虚拟机可从该映像实例化。在供应商处,您可以创建一个操纵系统映像,作为该供应商特定场景的默认设置。使命可以哀求特定的操纵系统映像,云bursting钩子可以为该场景指定默认的操纵系统映像,您还可以为该场景的云队列设置默认的操纵系统映像。
位于同一高速网络上的一组节点。例如,共享高速交换机的一组节点,例如,一个 Azure InfiniBand 规模会合的一组节点,或 Oracle 实例池中的一组节点。
PBS Professional 工作负载模拟工具。
从 PBS complex和云中移除节点的操纵。
在云中bursting一个或多个节点的过程
PBS 云bursting的工作原理

节点bursting的工作原理

您在云供应商处创建一个管理员账户。PBS 云将使用该供应商管理员帐户。您为每个场景创建一个云队列,作业提交者为其云作业申请云队列。PBS 调度器在云节点中运行云作业。PBS Simulate 会分析云作业所需的资源,盘算必要突增的节点数量和类型,以及必要运行的作业。
其中一个云bursting钩子会bursting节点:如果所需的节点不在裸机上,则主云bursting钩子会通过 PBS Cloud bursting所需的云节点;但如果所需的节点在裸机上,则扩展云bursting钩子会bursting节点。
每个钩子都尽可能使用现有节点,并在必要时bursting新节点。
下图显示了 PBS Professional、PBS Cloud、Simulate 和云提供商之间的关系。

分配给作业的操纵系统映像和实例类型

特定作业使用的操纵系统映像和实例类型取决于作业是否哀求该映像和实例类型,或作业是否在运行 过程中继承了该映像和实例类型。
操纵系统镜像和实例类型。操纵系统镜像通过 cloud_node_image 资源指定,实例类型通过 cloud_node_instance_type 资源指定。分配按以下顺序举行,最先遇到的将被分配:
主云bursting钩子和扩展云bursting钩子

主云bursting钩子称为 “cloud_hook”,它会bursting任何非裸机实例。扩展云bursting钩子称为“cloud_ext_hook”,它会bursting任何裸机实例。除配置文件(和名称)外,这些钩子完全相同。全部非裸机实例都位于 cloud_hook 配置文件中定义的场景中。全部裸机实例都在 cloud_ext_hook 配置文件定义的场景中。
不能在同一场景中混淆使用裸机和非裸机实例。不能在同一挂钩配置文件中混淆使用裸机和非裸机场景。
跟踪应用步调许可证

在云中运行的作业可能必要应用步调许可证。只有当应用步调许可证可用时,PBS Cloud 才会为这些作业启动节点;否则,节点可能会闲置。
PBS Cloud 使用自定义的可消耗服务器级整数资源来跟踪每种应用许可的可用数量。云bursting钩子会在bursting云节点之前检查该资源的值,因此只有在必要应用许可的作业有可用许可时,才会为其bursting新节点。管理员创建一个脚本,通常作为 cron 作业运行,以尽可能保持该资源的最新状态。
将作业分发到云节点和本地节点

PBS 云的基本配置允许作业提交者为其作业哀求云中的bursting节点,以替代哀求本地节点。在基本配置下,云队列中的作业在云中运行,非云队列中的作业在本地运行。但是,您可能希望在作业运行位置上有更大的灵活性,您可以通过一些额外的配置来实现这一点:
PBS Cloud 节点的许可

PBS Cloud 是 PBS Professional 的一部分,PBS Professional 使用的许可也实用于 PBS Cloud。例如,如果在 PBS Professional 中使用 PBSProNodes 许可,则在 PBS Cloud 中也使用该许可。同样,如果 PBS Professional 使用 PBSProSockets 许可,PBS Cloud 也使用该许可。
PBS 云的注意事项和限制

主云bursting钩子可在一次bursting中bursting多个作业所需的节点,只要这些作业不必要裸机实例。扩展云bursting钩子处理必要裸机实例的作业的bursting。这是因为在与非裸机混淆时,对裸机的bursting会低落整体bursting率,令人无法接受。
Simulate简介

什么是Simulate?

通过模拟(Simulate),您可以在沙箱中安全地复制和测试您的网站和工作负载。 您可以捕获 然后在不影响生产系统的情况下检查和调整快照。 您可以模拟工作负载在不同条件下的运行情况。 模拟使用PBS调度器运行模拟工作负载。
您可以使用 “模拟 ”来检查您的配置是否满足业务需求,并找出如何满足您的 服务水平协议(SLA),也许可以通过增长内部部署或云盘算资源、调整调度参数或更改其他配置参数来实现。 您还可以测试您的网站在工作负载发生变化和增长时的性能,以及您如何满足 SLA 要求。工作负载,以及如何满足这些不同的需求。
深入相识工作量

您可以深入相识您的工作量,评估您是否满足了客户的要求,是否与您的组织需求相调和。
您可以检查作业的运行顺序,并检查作业是否会运行、 您还可以检查如果更改系统配置和/或调度计谋时是否允许作业运行。
您可以检查公式和公式中每个元素对每个作业的贡献,以相识作业优先级是如何盘算的。作业优先级是如何盘算的。 您还可以查看作业是如何归入等价类的,如许就可以适当调整站点配置。通过模拟,您可以相识复杂情况中工作负载与计谋的交互情况。
调整站点配置

您可以安全地实验调整配置,以优化利用率或吞吐量,或更好地满足您的服务水平协议。
您可以对 PBS 综合系统举行快照,修改快照以反映您要测试的变化,然后在修改后的快照上模拟 在修改后的快照上运行工作负载。 如许,您就可以测试如果对资源(如 CPU、CPU 和服务器数量)举行更改,您的站点将如何运行。资源(如 CPU 数量、内存数量、节点数量等)的性能。 例如,您可以测试 增长盘算主机是否能满足您的需求,方法是模拟增长内部节点或云节点。 您还可以 还可以发现节点是否属于等价类。
调整调度参数

您可以实验更改公式和其他调度参数,以更好地满足您的需求。
您还可以在模拟情况中测试保留将如何影响您的工作负载;您可以在保留中创建作业、作业状态和运行作业。
你的调度计谋是你选择的一个或多个子目的的组合。例如,你可能必要满足两个特定的子目的:你可能必要以某种方式确定工作的优先级,你可能必要高效地使用资源。 您可以为每个子目的选择不同的结果。 例如,您可以选择根据大小、全部者、全部者的使用率、优先级、提交时间等调整。
使用模拟的示例

您可能必要对特定用户的工作负载举行优先排序,以应对告急情况。 您可以使用模拟来确保网站精确处理工作负载,并按照所需的顺序运行作业,以满足关键需求。
例如,您有配备 GPU 的主机,您必要确保在配备 GPU 的主机上立即运行任何 GPU 作业,同时在 GPU 作业之间继续在这些主机上运行其他作业。
Simulate 可让您在处理工作负载和优先级的重大变化时,保持利用率水平并最大限度地提高投资回报。
您可能会在周末收到数量未知的工作,您必要确保周末工作优先运行。 例如,一辆在赛道上行驶的一级方程式赛车的车翼出现故障,设计团队必要证明这不是设计故障,而是撞击或制造错误。 您知道设计团队的工作量必要一项特殊政策来加速他们的工作进度。 如许,您就可以在打仗生产系统之前,确保为设计团队制定的周末计谋能够精确实行。
重要的是,您可以测试特殊政策与预期工作量之间的复杂交互是否会导致您无法满足 SLA。 您可以防患于未然。 例如,为了给予设计团队最高的优先级,我们为他们提供了一个快速队列,但服务器同时处理 3 个作业的限制仍然存在。 使用 “模拟 ”功能,您可以快速发现不良行为并解决问题。 通过沙箱情况,您可以快速测试和调整,直到满意为止。
模拟术语

包含子目录和文件的目录,描述 PBS 系统及其工作负载,包括排队作业和运行中作业。 快照目录包括 pbs.conf、$PBS_HOME/server_priv 和 $PBS_HOME/sched_priv 目录及其内容的副本,以及其他目录的副本
运行模拟的快照。 通常是从及时 PBS 复杂系统中提取的快照,可以是原始快照,也可以是修改后的快照。
运行模拟后产生的输出快照。
具有相同提交者、资源哀求和最终队列位置的一组作业
具有相同可用资源的一组主机
用于发现作业、工作负载、配置等信息的命令。
仿真与真真相况之间的区别


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4