崗位職責(zé)
? 負(fù)責(zé)構(gòu)建和維護(hù)算力事業(yè)部的 Kubernetes 集群平臺(tái):包括 GPU 集群、邊緣集群、混合云集群。
? 開(kāi)發(fā) Kubernetes Operator、CRD、調(diào)度插件,支持模型部署、推理服務(wù)、算力編排。
? 實(shí)現(xiàn)自動(dòng)化:節(jié)點(diǎn)接入、健康檢查、滾動(dòng)升級(jí)、節(jié)點(diǎn)隔離、故障恢復(fù)。
? 參與構(gòu)建 “云–邊–端一體化集群”,負(fù)責(zé) KubeEdge / Knative / 輕量容器運(yùn)行時(shí)落地。
? 和調(diào)度團(tuán)隊(duì)、模型團(tuán)隊(duì)協(xié)作,提供可靠的:
? GPU 驅(qū)動(dòng)管理
? MIG / 多實(shí)例 GPU 配置
? 網(wǎng)絡(luò)優(yōu)化(RDMA、RoCE)
? 提升平臺(tái)的可觀測(cè)性與安全性。
崗位要求
? 精通 Kubernetes 原理,有 CRD/Operator 開(kāi)發(fā)經(jīng)驗(yàn)(至少一個(gè)可交付項(xiàng)目級(jí)經(jīng)驗(yàn))。
? 熟練使用 Golang。
? 熟悉容器運(yùn)行時(shí)(Docker、Containerd、CRI)。
? 熟悉 Prometheus、Grafana、Loki 等可觀測(cè)性工具。
? 對(duì)分布式系統(tǒng)、服務(wù)治理、網(wǎng)絡(luò)有基礎(chǔ)理解。