任職要求
1. 負責 AI 基礎設施(GPU/NPU 等異構(gòu)硬件)的部署、運維與性能優(yōu)化,制定硬件資源管理規(guī)范,保障大規(guī)模 AI 集群穩(wěn)定運行;
2. 主導 Kubernetes 集群在 AI 場景的搭建、升級與日常運維,優(yōu)化集群調(diào)度策略,適配 GPU/NPU 等異構(gòu)計算資源的高效利用;
3. 基于 Golang 開發(fā)自動化運維工具、集群管理組件或自定義控制器(Operator),實現(xiàn)硬件資源監(jiān)控、集群狀態(tài)巡檢、故障自愈等功能;
4. 設計并落地容器化部署方案,優(yōu)化 AI 模型訓練 / 推理任務的容器調(diào)度策略,解決 GPU 顯存隔離、算力分配、異構(gòu)資源親和性等問題;
5. 構(gòu)建硬件資源監(jiān)控與告警體系,整合 Prometheus、Grafana 等工具,實現(xiàn) GPU/NPU 利用率、溫度、功耗等指標的實時監(jiān)控與異常告警;
6. 與算法團隊協(xié)作,解決模型訓練過程中的硬件資源瓶頸,提供 GPU/NPU 性能調(diào)優(yōu)建議,提升算力資源利用率;
7. 參與制定 DevOps 流程規(guī)范,推動 CI/CD 流水線在 AI 模型部署場景的落地,實現(xiàn)模型訓練、推理服務的自動化發(fā)布;
8. 跟蹤異構(gòu)計算、云原生領域技術(shù)動態(tài),引入新技術(shù)(如 GPU 虛擬化、NPU 容器化調(diào)度)提升基礎設施效率。
任職要求
1. 計算機相關專業(yè)本科及以上學歷,5 年以上 DevOps 工程師經(jīng)驗,至少 1 年以上大規(guī)模 GPU/NPU 集群運維經(jīng)驗;
2. 精通 NVIDIA GPU(A100/H100 等)、華為昇騰(Ascend 910/310)、寒武紀等異構(gòu)硬件的特性與管理方式,熟悉硬件驅(qū)動、固件升級及故障排查;
3. 深入理解 Kubernetes 核心原理,精通集群部署、資源調(diào)度、網(wǎng)絡插件(Calico/Flannel)、存儲卷管理,有自定義調(diào)度器或 Operator 開發(fā)經(jīng)驗者優(yōu)先
4. 具備扎實的 Golang 開發(fā)能力,能獨立開發(fā)運維工具、API 服務或 K8s 周邊組件,熟悉 Go Modules、goroutine 等特性;
5. 熟悉容器化技術(shù)(Docker)及云原生生態(tài)工具(Helm、Istio、Prometheus 等),有 AI 平臺(如 Kubeflow、Volcano)部署經(jīng)驗者優(yōu)先;
6. 了解 GPU 虛擬化技術(shù)(vGPU/MIG)、RDMA 網(wǎng)絡配置,具備 AI 訓練任務性能調(diào)優(yōu)實戰(zhàn)經(jīng)驗;
7. 具備良好的問題分析能力,能快速定位并解決 K8s 集群故障、硬件資源沖突等復雜問題;
8. 有 AI 模型訓推平臺、高性能計算集群運維經(jīng)驗者優(yōu)先,具備良好的跨團隊溝通與協(xié)作能力。