【崗位職責(zé)】
1、 基礎(chǔ)設(shè)施管理:負(fù)責(zé)用戶現(xiàn)場虛擬機(jī)、Kubernetes集群及中間件資源的維護(hù)與管理,包括Linux操作系統(tǒng)與開源組件的部署、資源擴(kuò)容、配置變更等日常運(yùn)維操作。
2、 平臺發(fā)版與上線支持:負(fù)責(zé)業(yè)務(wù)平臺在正式環(huán)境的版本發(fā)布評審與操作實(shí)施。
3、 故障處理與恢復(fù):快速響應(yīng)系統(tǒng)及開源組件的異常事件,準(zhǔn)確診斷問題根源,實(shí)施有效修復(fù)措施,最大限度減少服務(wù)中斷時間,提升系統(tǒng)可用性。
4、 算力資源管理:根據(jù)用戶需求,完成算力資源的納管與釋放,確保資源可監(jiān)控、可調(diào)度、可管理。
5、 模型評測:對模型在不同算力設(shè)備上的運(yùn)行表現(xiàn)進(jìn)行模型性能、基準(zhǔn)能力、行業(yè)能力的評估,輸出評測數(shù)據(jù),評估模型適配的硬件資源類型,支持模型部署決策。
6、 模型部署支持:根據(jù)業(yè)務(wù)需求,完成模型的部署工作,包括資源配置建議、鏡像打包、部署驗(yàn)證及性能指標(biāo)跟蹤。
7、 模型運(yùn)行監(jiān)控:實(shí)時監(jiān)控模型運(yùn)行狀態(tài),包括準(zhǔn)確性、響應(yīng)時間、資源占用等關(guān)鍵指標(biāo);定期開展模型健康檢查和性能撥測,識別瓶頸并推動優(yōu)化改進(jìn)。
【任職要求】
1、 計(jì)算機(jī)相關(guān)專業(yè),大學(xué)本科或以上學(xué)歷;
2、 具備3年以上Linux運(yùn)維工作,精通linux環(huán)境下的日常運(yùn)維工具,并具備安裝、配置及排障能力;
3、 熟悉Docker\Kubernetes等生態(tài)圈項(xiàng)目,如容器集群、監(jiān)控、日志、存儲等部署方案;
4、 熟練使用shell、python等語言進(jìn)行運(yùn)維工具或自動化腳本的編寫;
5、 優(yōu)先考慮掌握NVIDIA系列卡的大模型部署,熟悉大模型在海光K100、華為910B等國產(chǎn)算力卡的應(yīng)用部署;
6、 優(yōu)先考慮熟練使用至少一種主流Al訓(xùn)練框架,如TensorFlow、PyTorch、Caffe等;
7、 具備較強(qiáng)的運(yùn)維意識以及自我驅(qū)動和學(xué)習(xí)能力。