HAMi + prometheus-k8s + grafana实现vgpu虚拟化监控 - IT评测·应用市场-qidao123.com

---
# Source: hami/templates/device-plugin/monitorserviceaccount.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
name: hami-device-plugin
namespace: "kube-system"
labels:
app.kubernetes.io/component: "hami-device-plugin"
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
---
# Source: hami/templates/scheduler/serviceaccount.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
name: hami-scheduler
namespace: "kube-system"
labels:
app.kubernetes.io/component: "hami-scheduler"
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
---
# Source: hami/templates/device-plugin/configmap.yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: hami-device-plugin
labels:
app.kubernetes.io/component: hami-device-plugin
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
data:
config.json: |
{
"nodeconfig": [
{
"name": "m5-cloudinfra-online02",
"devicememoryscaling": 1.8,
"devicesplitcount": 10,
"migstrategy":"none",
"filterdevices": {
"uuid": [],
"index": []
}
}
]
}
---
# Source: hami/templates/scheduler/configmap.yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: hami-scheduler
labels:
app.kubernetes.io/component: hami-scheduler
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
data:
config.json: |
{
"kind": "Policy",
"apiVersion": "v1",
"extenders": [
{
"urlPrefix": "https://127.0.0.1:443",
"filterVerb": "filter",
"bindVerb": "bind",
"enableHttps": true,
"weight": 1,
"nodeCacheCapable": true,
"httpTimeout": 30000000000,
"tlsConfig": {
"insecure": true
},
"managedResources": [
{
"name": "nvidia.com/gpu",
"ignoredByScheduler": true
},
{
"name": "nvidia.com/gpumem",
"ignoredByScheduler": true
},
{
"name": "nvidia.com/gpucores",
"ignoredByScheduler": true
},
{
"name": "nvidia.com/gpumem-percentage",
"ignoredByScheduler": true
},
{
"name": "nvidia.com/priority",
"ignoredByScheduler": true
},
{
"name": "cambricon.com/vmlu",
"ignoredByScheduler": true
},
{
"name": "hygon.com/dcunum",
"ignoredByScheduler": true
},
{
"name": "hygon.com/dcumem",
"ignoredByScheduler": true
},
{
"name": "hygon.com/dcucores",
"ignoredByScheduler": true
},
{
"name": "iluvatar.ai/vgpu",
"ignoredByScheduler": true
}
],
"ignoreable": false
}
]
}
---
# Source: hami/templates/scheduler/configmapnew.yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: hami-scheduler-newversion
labels:
app.kubernetes.io/component: hami-scheduler
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
data:
config.yaml: |
apiVersion: kubescheduler.config.k8s.io/v1
kind: KubeSchedulerConfiguration
leaderElection:
leaderElect: false
profiles:
- schedulerName: hami-scheduler
extenders:
- urlPrefix: "https://127.0.0.1:443"
filterVerb: filter
bindVerb: bind
nodeCacheCapable: true
weight: 1
httpTimeout: 30s
enableHTTPS: true
tlsConfig:
insecure: true
managedResources:
- name: nvidia.com/gpu
ignoredByScheduler: true
- name: nvidia.com/gpumem
ignoredByScheduler: true
- name: nvidia.com/gpucores
ignoredByScheduler: true
- name: nvidia.com/gpumem-percentage
ignoredByScheduler: true
- name: nvidia.com/priority
ignoredByScheduler: true
- name: cambricon.com/vmlu
ignoredByScheduler: true
- name: hygon.com/dcunum
ignoredByScheduler: true
- name: hygon.com/dcumem
ignoredByScheduler: true
- name: hygon.com/dcucores
ignoredByScheduler: true
- name: iluvatar.ai/vgpu
ignoredByScheduler: true
---
# Source: hami/templates/scheduler/device-configmap.yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: hami-scheduler-device
labels:
app.kubernetes.io/component: hami-scheduler
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
data:
device-config.yaml: |-
nvidia:
resourceCountName: nvidia.com/gpu
resourceMemoryName: nvidia.com/gpumem
resourceMemoryPercentageName: nvidia.com/gpumem-percentage
resourceCoreName: nvidia.com/gpucores
resourcePriorityName: nvidia.com/priority
overwriteEnv: false
defaultMemory: 0
defaultCores: 0
defaultGPUNum: 1
deviceSplitCount: 10
deviceMemoryScaling: 1
deviceCoreScaling: 1
cambricon:
resourceCountName: cambricon.com/vmlu
resourceMemoryName: cambricon.com/mlu.smlu.vmemory
resourceCoreName: cambricon.com/mlu.smlu.vcore
hygon:
resourceCountName: hygon.com/dcunum
resourceMemoryName: hygon.com/dcumem
resourceCoreName: hygon.com/dcucores
metax:
resourceCountName: "metax-tech.com/gpu"
mthreads:
resourceCountName: "mthreads.com/vgpu"
resourceMemoryName: "mthreads.com/sgpu-memory"
resourceCoreName: "mthreads.com/sgpu-core"
iluvatar:
resourceCountName: iluvatar.ai/vgpu
resourceMemoryName: iluvatar.ai/vcuda-memory
resourceCoreName: iluvatar.ai/vcuda-core
vnpus:
- chipName: 910B
commonWord: Ascend910A
resourceName: huawei.com/Ascend910A
resourceMemoryName: huawei.com/Ascend910A-memory
memoryAllocatable: 32768
memoryCapacity: 32768
aiCore: 30
templates:
- name: vir02
memory: 2184
aiCore: 2
- name: vir04
memory: 4369
aiCore: 4
- name: vir08
memory: 8738
aiCore: 8
- name: vir16
memory: 17476
aiCore: 16
- chipName: 910B3
commonWord: Ascend910B
resourceName: huawei.com/Ascend910B
resourceMemoryName: huawei.com/Ascend910B-memory
memoryAllocatable: 65536
memoryCapacity: 65536
aiCore: 20
aiCPU: 7
templates:
- name: vir05_1c_16g
memory: 16384
aiCore: 5
aiCPU: 1
- name: vir10_3c_32g
memory: 32768
aiCore: 10
aiCPU: 3
- chipName: 310P3
commonWord: Ascend310P
resourceName: huawei.com/Ascend310P
resourceMemoryName: huawei.com/Ascend310P-memory
memoryAllocatable: 21527
memoryCapacity: 24576
aiCore: 8
aiCPU: 7
templates:
- name: vir01
memory: 3072
aiCore: 1
aiCPU: 1
- name: vir02
memory: 6144
aiCore: 2
aiCPU: 2
- name: vir04
memory: 12288
aiCore: 4
aiCPU: 4
---
# Source: hami/templates/device-plugin/monitorrole.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
name: hami-device-plugin-monitor
rules:
- apiGroups:
- ""
resources:
- pods
verbs:
- get
- create
- watch
- list
- update
- patch
- apiGroups:
- ""
resources:
- nodes
verbs:
- get
- update
- list
- patch
---
# Source: hami/templates/device-plugin/monitorrolebinding.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: hami-device-plugin
labels:
app.kubernetes.io/component: "hami-device-plugin"
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
#name: cluster-admin
name: hami-device-plugin-monitor
subjects:
- kind: ServiceAccount
name: hami-device-plugin
namespace: "kube-system"
---
# Source: hami/templates/scheduler/rolebinding.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: hami-scheduler
labels:
app.kubernetes.io/component: "hami-scheduler"
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
name: cluster-admin
subjects:
- kind: ServiceAccount
name: hami-scheduler
namespace: "kube-system"
---
# Source: hami/templates/device-plugin/monitorservice.yaml
apiVersion: v1
kind: Service
metadata:
name: hami-device-plugin-monitor
labels:
app.kubernetes.io/component: hami-device-plugin
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
spec:
externalTrafficPolicy: Local
selector:
app.kubernetes.io/component: hami-device-plugin
type: NodePort
ports:
- name: monitorport
port: 31992
targetPort: 9394
nodePort: 31992
---
# Source: hami/templates/scheduler/service.yaml
apiVersion: v1
kind: Service
metadata:
name: hami-scheduler
labels:
app.kubernetes.io/component: hami-scheduler
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
spec:
type: NodePort
ports:
- name: http
port: 443
targetPort: 443
nodePort: 31998
protocol: TCP
- name: monitor
port: 31993
targetPort: 9395
nodePort: 31993
protocol: TCP
selector:
app.kubernetes.io/component: hami-scheduler
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
---
# Source: hami/templates/device-plugin/daemonsetnvidia.yaml
apiVersion: apps/v1
kind: DaemonSet
metadata:
name: hami-device-plugin
labels:
app.kubernetes.io/component: hami-device-plugin
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
spec:
selector:
matchLabels:
app.kubernetes.io/component: hami-device-plugin
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
template:
metadata:
labels:
app.kubernetes.io/component: hami-device-plugin
hami.io/webhook: ignore
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
spec:
imagePullSecrets:
[]
serviceAccountName: hami-device-plugin
priorityClassName: system-node-critical
hostPID: true
hostNetwork: true
containers:
- name: device-plugin
image: projecthami/hami:latest
imagePullPolicy: "IfNotPresent"
lifecycle:
postStart:
exec:
command: ["/bin/sh","-c", "cp -f /k8s-vgpu/lib/nvidia/* /usr/local/vgpu/"]
command:
- nvidia-device-plugin
- --config-file=/device-config.yaml
- --mig-strategy=none
- --disable-core-limit=false
- -v=false
env:
- name: NODE_NAME
valueFrom:
fieldRef:
fieldPath: spec.nodeName
- name: NVIDIA_MIG_MONITOR_DEVICES
value: all
- name: HOOK_PATH
value: /usr/local
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop: ["ALL"]
add: ["SYS_ADMIN"]
volumeMounts:
- name: device-plugin
mountPath: /var/lib/kubelet/device-plugins
- name: lib
mountPath: /usr/local/vgpu
- name: usrbin
mountPath: /usrbin
- name: deviceconfig
mountPath: /config
- name: hosttmp
mountPath: /tmp
- name: device-config
mountPath: /device-config.yaml
subPath: device-config.yaml
- name: vgpu-monitor
image: projecthami/hami:latest
imagePullPolicy: "IfNotPresent"
command: ["vGPUmonitor"]
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop: ["ALL"]
add: ["SYS_ADMIN"]
env:
- name: NVIDIA_VISIBLE_DEVICES
value: "all"
- name: NVIDIA_MIG_MONITOR_DEVICES
value: all
- name: HOOK_PATH
value: /usr/local/vgpu
volumeMounts:
- name: ctrs
mountPath: /usr/local/vgpu/containers
- name: dockers
mountPath: /run/docker
- name: containerds
mountPath: /run/containerd
- name: sysinfo
mountPath: /sysinfo
- name: hostvar
mountPath: /hostvar
volumes:
- name: ctrs
hostPath:
path: /usr/local/vgpu/containers
- name: hosttmp
hostPath:
path: /tmp
- name: dockers
hostPath:
path: /run/docker
- name: containerds
hostPath:
path: /run/containerd
- name: device-plugin
hostPath:
path: /var/lib/kubelet/device-plugins
- name: lib
hostPath:
path: /usr/local/vgpu
- name: usrbin
hostPath:
path: /usr/bin
- name: sysinfo
hostPath:
path: /sys
- name: hostvar
hostPath:
path: /var
- name: deviceconfig
configMap:
name: hami-device-plugin
- name: device-config
configMap:
name: hami-scheduler-device
nodeSelector:
gpu: "on"
---
# Source: hami/templates/scheduler/deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: hami-scheduler
labels:
app.kubernetes.io/component: hami-scheduler
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
spec:
replicas: 1
selector:
matchLabels:
app.kubernetes.io/component: hami-scheduler
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
template:
metadata:
labels:
app.kubernetes.io/component: hami-scheduler
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
hami.io/webhook: ignore
spec:
imagePullSecrets:
[]
serviceAccountName: hami-scheduler
priorityClassName: system-node-critical
containers:
- name: kube-scheduler
image: registry.cn-hangzhou.aliyuncs.com/google_containers/kube-scheduler:v1.31.0
imagePullPolicy: "IfNotPresent"
command:
- kube-scheduler
- --config=/config/config.yaml
- -v=4
- --leader-elect=true
- --leader-elect-resource-name=hami-scheduler
- --leader-elect-resource-namespace=kube-system
volumeMounts:
- name: scheduler-config
mountPath: /config
- name: vgpu-scheduler-extender
image: projecthami/hami:latest
imagePullPolicy: "IfNotPresent"
env:
command:
- scheduler
- --http_bind=0.0.0.0:443
- --cert_file=/tls/tls.crt
- --key_file=/tls/tls.key
- --scheduler-name=hami-scheduler
- --metrics-bind-address=:9395
- --node-scheduler-policy=binpack
- --gpu-scheduler-policy=spread
- --device-config-file=/device-config.yaml
- --debug
- -v=4
ports:
- name: http
containerPort: 443
protocol: TCP
volumeMounts:
- name: tls-config
mountPath: /tls
- name: device-config
mountPath: /device-config.yaml
subPath: device-config.yaml
volumes:
- name: tls-config
secret:
secretName: hami-scheduler-tls
- name: scheduler-config
configMap:
name: hami-scheduler-newversion
- name: device-config
configMap:
name: hami-scheduler-device
---
# Source: hami/templates/scheduler/webhook.yaml
apiVersion: admissionregistration.k8s.io/v1
kind: MutatingWebhookConfiguration
metadata:
name: hami-webhook
webhooks:
- admissionReviewVersions:
- v1beta1
clientConfig:
service:
name: hami-scheduler
namespace: kube-system
path: /webhook
port: 443
failurePolicy: Ignore
matchPolicy: Equivalent
name: vgpu.hami.io
namespaceSelector:
matchExpressions:
- key: hami.io/webhook
operator: NotIn
values:
- ignore
objectSelector:
matchExpressions:
- key: hami.io/webhook
operator: NotIn
values:
- ignore
reinvocationPolicy: Never
rules:
- apiGroups:
- ""
apiVersions:
- v1
operations:
- CREATE
resources:
- pods
scope: '*'
sideEffects: None
timeoutSeconds: 10
---
# Source: hami/templates/scheduler/job-patch/serviceaccount.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
name: hami-admission
annotations:
"helm.sh/hook": pre-install,pre-upgrade,post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
---
# Source: hami/templates/scheduler/job-patch/clusterrole.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
name: hami-admission
annotations:
"helm.sh/hook": pre-install,pre-upgrade,post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
rules:
- apiGroups:
- admissionregistration.k8s.io
resources:
#- validatingwebhookconfigurations
- mutatingwebhookconfigurations
verbs:
- get
- update
---
# Source: hami/templates/scheduler/job-patch/clusterrolebinding.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: hami-admission
annotations:
"helm.sh/hook": pre-install,pre-upgrade,post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
name: hami-admission
subjects:
- kind: ServiceAccount
name: hami-admission
namespace: "kube-system"
---
# Source: hami/templates/scheduler/job-patch/role.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
name: hami-admission
annotations:
"helm.sh/hook": pre-install,pre-upgrade,post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
rules:
- apiGroups:
- ""
resources:
- secrets
verbs:
- get
- create
---
# Source: hami/templates/scheduler/job-patch/rolebinding.yaml
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
name: hami-admission
annotations:
"helm.sh/hook": pre-install,pre-upgrade,post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: Role
name: hami-admission
subjects:
- kind: ServiceAccount
name: hami-admission
namespace: "kube-system"
---
# Source: hami/templates/scheduler/job-patch/job-createSecret.yaml
apiVersion: batch/v1
kind: Job
metadata:
name: hami-admission-create
annotations:
"helm.sh/hook": pre-install,pre-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
spec:
template:
metadata:
name: hami-admission-create
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
hami.io/webhook: ignore
spec:
imagePullSecrets:
[]
containers:
- name: create
image: liangjw/kube-webhook-certgen:v1.1.1
imagePullPolicy: IfNotPresent
args:
- create
- --cert-name=tls.crt
- --key-name=tls.key
- --host=hami-scheduler.kube-system.svc,127.0.0.1
- --namespace=kube-system
- --secret-name=hami-scheduler-tls
restartPolicy: OnFailure
serviceAccountName: hami-admission
securityContext:
runAsNonRoot: true
runAsUser: 2000
---
# Source: hami/templates/scheduler/job-patch/job-patchWebhook.yaml
apiVersion: batch/v1
kind: Job
metadata:
name: hami-admission-patch
annotations:
"helm.sh/hook": post-install,post-upgrade
"helm.sh/hook-delete-policy": before-hook-creation,hook-succeeded
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
spec:
template:
metadata:
name: hami-admission-patch
labels:
helm.sh/chart: hami-2.4.0
app.kubernetes.io/name: hami
app.kubernetes.io/instance: hami
app.kubernetes.io/version: "2.4.0"
app.kubernetes.io/managed-by: Helm
app.kubernetes.io/component: admission-webhook
hami.io/webhook: ignore
spec:
imagePullSecrets:
[]
containers:
- name: patch
image: liangjw/kube-webhook-certgen:v1.1.1
imagePullPolicy: IfNotPresent
args:
- patch
- --webhook-name=hami-webhook
- --namespace=kube-system
- --patch-validating=false
- --secret-name=hami-scheduler-tls
restartPolicy: OnFailure
serviceAccountName: hami-admission
securityContext:
runAsNonRoot: true
runAsUser: 2000

复制代码