崗位職責(zé):
對(duì)GPU服務(wù)器A100、A800、H100、H800、H200等型號(hào) 進(jìn)行性能監(jiān)控與故障處理
1、GPU云服務(wù)器維護(hù),包括日常報(bào)警巡檢,集群使用狀態(tài)記錄,處理系統(tǒng)報(bào)警;GPU狀態(tài)檢查,定期進(jìn)行GPU狀態(tài)檢查,是否有ECC報(bào)警;GPU使用問題,客戶在使用過程中遇到的問題,如驅(qū)動(dòng)兼容性,任務(wù)失敗原因;環(huán)境搭建,為GPU服務(wù)器,搭建cuda工具相關(guān)依賴,conda虛擬環(huán)境等
2,有搭建GPU測(cè)試環(huán)境的能力,如(GPU burn、Field diag、DCGM)等測(cè)試工具,定位GPU問題(如算力異常、ECC、散熱問題);
3,負(fù)責(zé)GPU服務(wù)器的安裝、調(diào)試、上架、故障診斷及更換。 定期檢查硬件狀態(tài),確保設(shè)備穩(wěn)定運(yùn)行。 配合供應(yīng)商處理硬件保修或更換。
4. 執(zhí)行服務(wù)器硬件改配及軟件適配,確保兼容性。
5. 與售前,售后團(tuán)隊(duì)協(xié)作,解決技術(shù)問題,。
崗位要求:
1. 計(jì)算機(jī)/電子工程相關(guān)專業(yè),熟悉英偉達(dá)GPU架構(gòu)及CUDA生態(tài)
2. 精通GPU服務(wù)器拆裝、故障診斷,備件管理,熟悉服務(wù)器BMC管理。
3. 熟練使用Linux命令Python/Shell腳本開發(fā)能力,
4.了解AI/HPC場(chǎng)景者有AI服務(wù)器整機(jī)及GPU測(cè)
試經(jīng)驗(yàn)更佳;