HDUO Lab

刚他妈开完会，一群SB又在扯什么“云原生最佳实践”、“降本增效”，放他娘的屁！一个个就知道用Helm装个Operator，真他妈以为自己是架构师了？容器跑起来了就万事大吉了？监控呢？资源利用率呢？稳定性呢？真想把他们的脑壳撬开，看看里面是不是装满了YAML文件。

K8S调度器：你真懂它的调度策略？

行了，先压压火，还是得干活。今天就跟你们聊聊K8S调度器，别以为Pod扔上去就完事了，里面的水深着呢。尤其是现在动不动就搞什么“AI训练”、“大数据分析”，资源调度稍微有点问题，性能直接爆炸。

K8S默认的调度器（kube-scheduler）那套东西，Predicate和Priority，看似简单，实际上里面的门道多得很。不知道你们有没有仔细看过它的源码，或者至少看过它的配置？

Predicate负责过滤掉不满足条件的Node，Priority负责对剩下的Node进行打分排序，最终选出最优的Node来运行Pod。这流程没错，但是关键在于，Predicate和Priority怎么配置？默认的那些东西，对于复杂的应用场景，根本不够用。

自定义调度器：别只会用默认的

我给你们举个例子，假设你们有个AI训练任务，需要GPU资源，而且最好是同一批次的GPU卡，这样才能发挥最大的并行计算能力。用默认的调度器，它能保证Pod跑到有GPU的Node上，但是它能保证Pod使用的GPU卡是同一批次的吗？绝对不能！

所以，这种情况下，就必须自定义调度器。至少要自定义Predicate和Priority，让调度器能够感知到GPU卡的型号、数量、拓扑结构，并根据这些信息进行调度。

怎么搞？别跟我说不会，K8S提供了扩展调度器的机制，你可以自己写一个调度器，或者使用现成的调度器框架。

下面是一个简单的自定义Predicate的例子，用Go写的，别跟我说你不会Go，不会就去学！

package main
import (
    "context"
    "fmt"
    "os"
    corev1 "k8s.io/api/core/v1"
    "k8s.io/apimachinery/pkg/runtime"
    "k8s.io/kubernetes/pkg/scheduler/framework"
    "k8s.io/kubernetes/pkg/scheduler/framework/plugins/names"
    "k8s.io/kubernetes/pkg/scheduler/framework/runtime/testing"
)
// GPUAffinity is a plugin that checks if the node has the required GPU resources.
type GPUAffinity struct{}
var _ framework.FilterPlugin = &GPUAffinity{}
const (
    // Name is the name of the plugin used in the plugin registry and configurations.
    Name = "GPUAffinity"
)
// Name returns name of the plugin.
func (pl *GPUAffinity) Name() string {
    return Name
}
// Filter invoked at the filter extension point.
func (pl *GPUAffinity) Filter(ctx context.Context, state *framework.CycleState, pod *corev1.Pod, nodeInfo *framework.NodeInfo) *framework.Status {
    requiredGPUs := 1 // 假设每个Pod需要1个GPU
    availableGPUs := 0
    for _, resource := range nodeInfo.Allocatable.Capacity {
        if resource.Name == "nvidia.com/gpu" {
            availableGPUs = int(resource.Value())
            break
        }
    }
    if availableGPUs < requiredGPUs {
        return framework.NewStatus(framework.Unschedulable, "Insufficient GPU resources")
    }
    return framework.NewStatus(framework.Success)
}
// New creates a GPUAffinity plugin.
func New(_ runtime.Object, handle framework.Handle) (framework.Plugin, error) {
    return &GPUAffinity{}, nil
}
func main() {
    // Example usage
    fmt.Println("GPU Affinity Plugin")
}

这个代码只是一个简单的示例，它检查Node上是否有足够的GPU资源。实际情况要复杂得多，你需要根据你的具体需求进行修改。比如，你可以检查GPU卡的型号，或者检查GPU卡的拓扑结构。

不要只会抄YAML，底层原理才是王道

现在很多年轻人，只会抄YAML，改改参数，根本不知道背后的原理。遇到问题，只会Google，Stack Overflow，根本没有自己解决问题的能力。这种人，我只能说，呵呵。

K8S调度器看似简单，实际上涉及到很多底层的算法和数据结构。比如，如何高效地进行Node的过滤和打分？如何保证调度的公平性？如何处理资源的竞争？这些问题，都需要深入理解K8S的源码才能解决。

所以，我奉劝各位，不要只会用K8S，要深入理解K8S的原理。否则，你永远只是一个K8S的使用者，而不是一个K8S的专家。

行了，今天就说到这里。晚上还有个DB的坑要填，真是操蛋！

K8S调度器：你真懂它的调度策略？

自定义调度器：别只会用默认的

不要只会抄YAML，底层原理才是王道

更多文章

运维事故：消失的Pod，和那个错得离谱的YAML

又是网络背锅？这次真的冤枉！