任職要求
1. 負(fù)責(zé) AI 基礎(chǔ)設(shè)施(GPU/NPU 等異構(gòu)硬件)的部署、運(yùn)維與性能優(yōu)化,制定硬件資源管理規(guī)范,保障大規(guī)模 AI 集群穩(wěn)定運(yùn)行;
2. 主導(dǎo) Kubernetes 集群在 AI 場景的搭建、升級(jí)與日常運(yùn)維,優(yōu)化集群調(diào)度策略,適配 GPU/NPU 等異構(gòu)計(jì)算資源的高效利用;
3. 基于 Golang 開發(fā)自動(dòng)化運(yùn)維工具、集群管理組件或自定義控制器(Operator),實(shí)現(xiàn)硬件資源監(jiān)控、集群狀態(tài)巡檢、故障自愈等功能;
4. 設(shè)計(jì)并落地容器化部署方案,優(yōu)化 AI 模型訓(xùn)練 / 推理任務(wù)的容器調(diào)度策略,解決 GPU 顯存隔離、算力分配、異構(gòu)資源親和性等問題;
5. 構(gòu)建硬件資源監(jiān)控與告警體系,整合 Prometheus、Grafana 等工具,實(shí)現(xiàn) GPU/NPU 利用率、溫度、功耗等指標(biāo)的實(shí)時(shí)監(jiān)控與異常告警;
6. 與算法團(tuán)隊(duì)協(xié)作,解決模型訓(xùn)練過程中的硬件資源瓶頸,提供 GPU/NPU 性能調(diào)優(yōu)建議,提升算力資源利用率;
7. 參與制定 DevOps 流程規(guī)范,推動(dòng) CI/CD 流水線在 AI 模型部署場景的落地,實(shí)現(xiàn)模型訓(xùn)練、推理服務(wù)的自動(dòng)化發(fā)布;
8. 跟蹤異構(gòu)計(jì)算、云原生領(lǐng)域技術(shù)動(dòng)態(tài),引入新技術(shù)(如 GPU 虛擬化、NPU 容器化調(diào)度)提升基礎(chǔ)設(shè)施效率。
任職要求
1. 計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,5 年以上 DevOps 工程師經(jīng)驗(yàn),至少 1 年以上大規(guī)模 GPU/NPU 集群運(yùn)維經(jīng)驗(yàn);
2. 精通 NVIDIA GPU(A100/H100 等)、華為昇騰(Ascend 910/310)、寒武紀(jì)等異構(gòu)硬件的特性與管理方式,熟悉硬件驅(qū)動(dòng)、固件升級(jí)及故障排查;
3. 深入理解 Kubernetes 核心原理,精通集群部署、資源調(diào)度、網(wǎng)絡(luò)插件(Calico/Flannel)、存儲(chǔ)卷管理,有自定義調(diào)度器或 Operator 開發(fā)經(jīng)驗(yàn)者優(yōu)先
4. 具備扎實(shí)的 Golang 開發(fā)能力,能獨(dú)立開發(fā)運(yùn)維工具、API 服務(wù)或 K8s 周邊組件,熟悉 Go Modules、goroutine 等特性;
5. 熟悉容器化技術(shù)(Docker)及云原生生態(tài)工具(Helm、Istio、Prometheus 等),有 AI 平臺(tái)(如 Kubeflow、Volcano)部署經(jīng)驗(yàn)者優(yōu)先;
6. 了解 GPU 虛擬化技術(shù)(vGPU/MIG)、RDMA 網(wǎng)絡(luò)配置,具備 AI 訓(xùn)練任務(wù)性能調(diào)優(yōu)實(shí)戰(zhàn)經(jīng)驗(yàn);
7. 具備良好的問題分析能力,能快速定位并解決 K8s 集群故障、硬件資源沖突等復(fù)雜問題;
8. 有 AI 模型訓(xùn)推平臺(tái)、高性能計(jì)算集群運(yùn)維經(jīng)驗(yàn)者優(yōu)先,具備良好的跨團(tuán)隊(duì)溝通與協(xié)作能力。