崗位職責(zé):
保障AI平臺高可用性,負責(zé)系統(tǒng)監(jiān)控、故障響應(yīng)與資源管理;
設(shè)計自動化運維方案,優(yōu)化GPU等異構(gòu)計算資源使用效率;
配合開發(fā)團隊完成系統(tǒng)升級與安全策略實施。
任職要求:
計算機相關(guān)專業(yè),3年以上大型系統(tǒng)運維經(jīng)驗;
精通Linux系統(tǒng)及腳本開發(fā),熟悉K8s及主流云平臺;
具備快速問題定位能力,適應(yīng)值班與應(yīng)急響應(yīng)。