【崗位職責(zé)】
1、負(fù)責(zé)大數(shù)據(jù)集群核心組件的全生命周期運(yùn)維,包括Ambari部署管理、Hadoop(HDFS/YARN)集群運(yùn)維、Spark/Flink計(jì)算任務(wù)支持、Hive/HBase數(shù)據(jù)存儲(chǔ)管理,以及 Kylin、Doris、ES、Zookeeper、海豚調(diào)度器的日常巡檢、故障排查與版本升級(jí),保障集群7×24小時(shí)穩(wěn)定運(yùn)行。
2、參與大數(shù)據(jù)技術(shù)體系的信創(chuàng)適配落地與運(yùn)維,針對(duì)飛騰、海光、鯤鵬芯片服務(wù)器,以及麒麟 V10SP2/3 操作系統(tǒng),解決組件兼容性問題(如 Hadoop與鯤鵬芯片驅(qū)動(dòng)適配、Flink在麒麟系統(tǒng)的依賴庫沖突),沉淀信創(chuàng)環(huán)境運(yùn)維手冊(cè)與故障處理預(yù)案。
3、基于 RedHat、CentOS、麒麟 V10SP2/3 操作系統(tǒng),通過Shell腳本實(shí)現(xiàn)運(yùn)維任務(wù)自動(dòng)化,如集群狀態(tài)批量檢查、日志定期清理、配置跨節(jié)點(diǎn)同步;同時(shí)利用Python或Go 語言研發(fā)運(yùn)維工具,提升運(yùn)維效率(如歷史故障自動(dòng)分析工具、組件配置校驗(yàn)工具)。
4、參與集群容量規(guī)劃、性能調(diào)優(yōu)與監(jiān)控告警體系迭代,結(jié)合業(yè)務(wù)數(shù)據(jù)增長與計(jì)算需求,輸出資源擴(kuò)容建議;針對(duì)慢查詢、任務(wù)阻塞等問題,聯(lián)合業(yè)務(wù)團(tuán)隊(duì)優(yōu)化SQL語句、調(diào)整組件參數(shù)。
5、負(fù)責(zé)運(yùn)維文檔沉淀,包括集群架構(gòu)圖、組件部署手冊(cè)、故障處理案例、信創(chuàng)適配指南等,配合團(tuán)隊(duì)完成新人帶教與技術(shù)分享。
6、完成領(lǐng)導(dǎo)安排的其他工作。
【任職要求】
1、本科及以上學(xué)歷,計(jì)算機(jī)、大數(shù)據(jù)、軟件工程相關(guān)專業(yè)優(yōu)先,3年及以上大數(shù)據(jù)集群運(yùn)維經(jīng)驗(yàn),有金融、互聯(lián)網(wǎng)等大規(guī)模集群(50節(jié)點(diǎn)以上)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
2、精通Hadoop生態(tài)組件原理與運(yùn)維,能獨(dú)立解決HDFS塊丟失、YARN資源死鎖、Hive元數(shù)據(jù)損壞、Flink任務(wù)背壓等復(fù)雜故障;熟悉Spark/Flink任務(wù)提交、資源配置與調(diào)優(yōu),了解Kylin/Doris的預(yù)計(jì)算邏輯與查詢優(yōu)化。
3、熟練使用RedHat/CentOS系統(tǒng)命令,精通Shell腳本編程;具備Python或Go語言開發(fā)能力,有實(shí)際大數(shù)據(jù)運(yùn)維工具開發(fā)案例(如自動(dòng)化部署工具、巡檢工具)者優(yōu)先。
4、熟悉監(jiān)控告警工具(如 Prometheus、Grafana、夜鶯),能獨(dú)立搭建組件監(jiān)控面板、配置告警規(guī)則;具備容量規(guī)劃、性能調(diào)優(yōu)經(jīng)驗(yàn),了解云原生技術(shù)(Docker、K8s)者優(yōu)先。
5、具備較強(qiáng)的問題分析與應(yīng)急處理能力,責(zé)任心強(qiáng),能接受節(jié)假日值班與突發(fā)故障應(yīng)急響應(yīng)。