崗位職責(zé)
平臺(tái)運(yùn)維管理
負(fù)責(zé)Hadoop、Spark、Flink、Kafka、Hive、HBase等大數(shù)據(jù)組件的日常運(yùn)維、監(jiān)控及故障處理
制定并完善數(shù)據(jù)平臺(tái)運(yùn)維規(guī)范、操作流程及應(yīng)急預(yù)案
負(fù)責(zé)集群容量規(guī)劃、資源調(diào)度優(yōu)化及擴(kuò)縮容管理
建立完善的監(jiān)控告警體系,及時(shí)發(fā)現(xiàn)并處理系統(tǒng)異常
穩(wěn)定性保障
保障數(shù)據(jù)平臺(tái)高可用性,實(shí)現(xiàn)SLA目標(biāo)(如99.9%可用性)
負(fù)責(zé)系統(tǒng)故障的快速響應(yīng)、定位及恢復(fù),編寫(xiě)故障分析報(bào)告
定期進(jìn)行系統(tǒng)巡檢、健康檢查及風(fēng)險(xiǎn)評(píng)估
組織并執(zhí)行災(zāi)難恢復(fù)演練,確保數(shù)據(jù)安全與業(yè)務(wù)連續(xù)性
性能優(yōu)化
監(jiān)控集群性能指標(biāo),分析瓶頸并進(jìn)行調(diào)優(yōu)
優(yōu)化作業(yè)調(diào)度策略,提升資源利用率
協(xié)助開(kāi)發(fā)團(tuán)隊(duì)優(yōu)化數(shù)據(jù)處理任務(wù),提升作業(yè)執(zhí)行效率
自動(dòng)化建設(shè)
推動(dòng)運(yùn)維自動(dòng)化,開(kāi)發(fā)運(yùn)維腳本及工具,提升運(yùn)維效率
參與DevOps體系建設(shè),實(shí)現(xiàn)持續(xù)集成與持續(xù)部署
完善配置管理、變更管理及發(fā)布管理流程
文檔與協(xié)作
編寫(xiě)運(yùn)維文檔、技術(shù)手冊(cè)及知識(shí)庫(kù)
與開(kāi)發(fā)、測(cè)試、業(yè)務(wù)團(tuán)隊(duì)緊密協(xié)作,提供技術(shù)支持
任職要求
學(xué)歷與經(jīng)驗(yàn)
本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程、信息技術(shù)等相關(guān)專業(yè)
3年以上大數(shù)據(jù)平臺(tái)運(yùn)維經(jīng)驗(yàn),有大規(guī)模集群(100+節(jié)點(diǎn))運(yùn)維經(jīng)驗(yàn)優(yōu)先
技術(shù)能力
精通Linux系統(tǒng)運(yùn)維,熟悉Shell/Python腳本開(kāi)發(fā)
熟練掌握Hadoop生態(tài)(HDFS、YARN、MapReduce、Hive、Spark、Flink、Kafka、HBase等)的安裝、配置、調(diào)優(yōu)及故障處理
熟悉MySQL、PostgreSQL、ClickHouse、Doris等數(shù)據(jù)庫(kù)運(yùn)維
了解Docker、Kubernetes等容器化技術(shù)及云原生架構(gòu)
熟悉Prometheus、Grafana、Zabbix等監(jiān)控工具
具備SQL優(yōu)化、JVM調(diào)優(yōu)經(jīng)驗(yàn)者優(yōu)先
軟性素質(zhì)
具備優(yōu)秀的故障排查能力和抗壓能力,能7×24小時(shí)響應(yīng)緊急故障
良好的溝通協(xié)調(diào)能力及團(tuán)隊(duì)協(xié)作精神
強(qiáng)烈的責(zé)任心和主動(dòng)性,具備持續(xù)學(xué)習(xí)和自我驅(qū)動(dòng)能力
加分項(xiàng)
有軟件開(kāi)發(fā)經(jīng)驗(yàn)、開(kāi)發(fā)基礎(chǔ)者
有阿里云、騰訊云、AWS等云平臺(tái)大數(shù)據(jù)產(chǎn)品運(yùn)維經(jīng)驗(yàn)
持有相關(guān)認(rèn)證(如CKA、阿里云ACP/ACE、Cloudera認(rèn)證等)
有數(shù)據(jù)治理、數(shù)據(jù)安全相關(guān)經(jīng)驗(yàn)
熟悉FinOps,具備成本優(yōu)化意識(shí)與實(shí)踐經(jīng)驗(yàn)