崗位職責(zé):
1.參與智能運(yùn)維的整體架構(gòu)設(shè)計(jì)與規(guī)劃,結(jié)合公司業(yè)務(wù)需求和技術(shù)發(fā)展趨勢(shì),制定合理的技術(shù)方案,確保平臺(tái)具備高可用性、高性能和可擴(kuò)展性;
2. 負(fù)責(zé)智能運(yùn)維平臺(tái)的開(kāi)發(fā)工作,包括數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊、告警管理模塊、自動(dòng)化運(yùn)維模塊等功能的編碼實(shí)現(xiàn),使用主流的開(kāi)發(fā)框架和工具,保證代碼質(zhì)量和開(kāi)發(fā)效率;
3. 與運(yùn)維團(tuán)隊(duì)緊密合作,深入了解運(yùn)維業(yè)務(wù)流程,將運(yùn)維場(chǎng)景和需求轉(zhuǎn)化為具體的功能需求,通過(guò)開(kāi)發(fā)實(shí)現(xiàn)運(yùn)維工作的自動(dòng)化、智能化,提高運(yùn)維效率,降低運(yùn)維成本;
4. 負(fù)責(zé)智能運(yùn)維的數(shù)據(jù)處理和分析工作,運(yùn)用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法,對(duì)運(yùn)維數(shù)據(jù)進(jìn)行挖掘和分析,建立運(yùn)維數(shù)據(jù)模型,實(shí)現(xiàn)故障預(yù)測(cè)、根因分析等智能化運(yùn)維功能;
5. 監(jiān)控智能運(yùn)維平臺(tái)的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)和解決平臺(tái)運(yùn)行過(guò)程中出現(xiàn)的問(wèn)題,保障平臺(tái)的穩(wěn)定運(yùn)行;定期對(duì)平臺(tái)進(jìn)行性能優(yōu)化,提升平臺(tái)的響應(yīng)速度和處理能力;
6. 參與制定和完善智能運(yùn)維相關(guān)的技術(shù)規(guī)范、流程和標(biāo)準(zhǔn),推動(dòng)團(tuán)隊(duì)技術(shù)水平的提升;
7. 分享技術(shù)經(jīng)驗(yàn)和最佳實(shí)踐,幫助團(tuán)隊(duì)成員共同成長(zhǎng)。
崗位任職要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)、軟件工程、電子信息等相關(guān)專(zhuān)業(yè);
2、具備AI 與機(jī)器學(xué)習(xí)技術(shù),能熟練使用 Python/R等語(yǔ)言,掌握機(jī)器學(xué)習(xí)經(jīng)典算法(如回歸分析、聚類(lèi)、決策樹(shù))、深度學(xué)習(xí)框架(TensorFlow/PyTorch)等知識(shí);
運(yùn)維場(chǎng)景定制算法:熟悉時(shí)序預(yù)測(cè)(LSTM/Transformer 用于性能趨勢(shì)分析)、異常檢測(cè)(Isolation Forest/One-Class SVM 用于故障預(yù)警)、強(qiáng)化學(xué)習(xí)(自動(dòng)參數(shù)調(diào)優(yōu))等模型,了解相關(guān)模型在不同場(chǎng)景下的落地;
3、具備自動(dòng)化運(yùn)維能力,熟練使用 Shell/Python 編寫(xiě)各類(lèi)運(yùn)維自動(dòng)化腳本;掌握 Docker/Kubernetes 容器化技術(shù),可熟練使用 Prometheus+Grafana、Zabbix 等工具以及ELK等,構(gòu)建日志分析和監(jiān)控體系;
4、具備良好的溝通和理解能力,理解不同運(yùn)維場(chǎng)景對(duì)監(jiān)控、撥測(cè)等方面的需求,能夠?qū)?yīng)用可用性需求轉(zhuǎn)化為 AIOPS設(shè)計(jì)需求。