工作內(nèi)容:
1.CDH集群部署與初始化
負(fù)責(zé) CDH(Cloudera Distribution Including Apache Hadoop)大數(shù)據(jù)平臺(tái)的規(guī)劃、部署與初始化工作。根據(jù)業(yè)務(wù)需求和服務(wù)器資源情況,制定合理的集群部署方案,確保 HDFS、MapReduce、YARN、Hive、HBase、Spark 等核心組件正確安裝配置,保障集群初始狀態(tài)穩(wěn)定可靠;
2.CDH集群日常運(yùn)維
承擔(dān) CDH 集群的日常運(yùn)行維護(hù)工作,包括但不限于集群狀態(tài)監(jiān)控、性能巡檢、日志分析等。通過 Cloudera Manager 實(shí)時(shí)掌握集群各節(jié)點(diǎn)及組件的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)并解決潛在問題,確保集群持續(xù)穩(wěn)定運(yùn)行;
3.集群擴(kuò)容與資源調(diào)整
根據(jù)業(yè)務(wù)增長需求,制定 CDH 集群擴(kuò)容方案,完成節(jié)點(diǎn)添加、存儲(chǔ)和計(jì)算資源擴(kuò)展等操作;根據(jù)各組件的運(yùn)行負(fù)載,合理調(diào)整 YARN 等資源調(diào)度相關(guān)配置,優(yōu)化資源分配,提高集群資源利用率;
4.故障處理與應(yīng)急響應(yīng)
負(fù)責(zé) CDH 集群各類故障的排查與處理,如 HDFS 塊損壞、節(jié)點(diǎn)宕機(jī)、組件服務(wù)異常等。建立完善的故障應(yīng)急響應(yīng)機(jī)制,快速定位問題根源并采取有效措施恢復(fù)集群正常運(yùn)行,減少故障對業(yè)務(wù)的影響;
5.數(shù)據(jù)安全與權(quán)限管理
基于 CDH 內(nèi)置的安全框架,如 Kerberos 認(rèn)證、Sentry 權(quán)限控制等,負(fù)責(zé)集群的安全配置與管理。制定數(shù)據(jù)安全策略,嚴(yán)格控制用戶訪問權(quán)限,定期進(jìn)行安全審計(jì),保障集群數(shù)據(jù)的安全性和合規(guī)性;
6.版本升級與補(bǔ)丁更新
關(guān)注 CDH 及相關(guān)組件的版本更新和補(bǔ)丁發(fā)布情況,制定合理的版本升級和補(bǔ)丁安裝計(jì)劃。在不影響業(yè)務(wù)正常運(yùn)行的前提下,完成版本升級和補(bǔ)丁部署工作,提升集群的穩(wěn)定性和安全性;
7.文檔編寫與知識(shí)轉(zhuǎn)移
編寫 CDH 集群部署、運(yùn)維、故障處理等相關(guān)文檔,包括操作手冊、故障處理指南等。定期組織團(tuán)隊(duì)內(nèi)部技術(shù)分享,轉(zhuǎn)移運(yùn)維經(jīng)驗(yàn),提升團(tuán)隊(duì)整體技術(shù)水平;
8.跨團(tuán)隊(duì)協(xié)作
與開發(fā)團(tuán)隊(duì)、業(yè)務(wù)團(tuán)隊(duì)保持密切溝通,了解業(yè)務(wù)需求和數(shù)據(jù)處理需求。為開發(fā)團(tuán)隊(duì)提供 CDH 平臺(tái)相關(guān)的技術(shù)支持,協(xié)助解決開發(fā)過程中遇到的平臺(tái)相關(guān)問題,保障數(shù)據(jù)處理任務(wù)的順利進(jìn)行;
基本要求:
1. 本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、大數(shù)據(jù)相關(guān)專業(yè)優(yōu)先;
2. 具有 5 年及以上大數(shù)據(jù)平臺(tái)運(yùn)維經(jīng)驗(yàn),其中至少 3 年 CDH(Cloudera Distribution Including Apache Hadoop)部署運(yùn)維相關(guān)經(jīng)驗(yàn);
3. 有大型 CDH 集群(100 節(jié)點(diǎn)及以上)運(yùn)維經(jīng)驗(yàn)者優(yōu)先;
4. 熟悉 CDH 平臺(tái)的架構(gòu)和核心組件(HDFS、MapReduce、YARN、Hive、HBase、Spark 等)的原理及運(yùn)行機(jī)制;
5. 熟練使用 Cloudera Manager 進(jìn)行 CDH 集群的部署、監(jiān)控、管理和故障排查;
6. 具備 CDH 集群性能調(diào)優(yōu)能力,能夠針對不同業(yè)務(wù)場景優(yōu)化集群配置參數(shù);
7. 熟悉大數(shù)據(jù)平臺(tái)常用的監(jiān)控工具(如 Ganglia、Nagios 等)和日志分析工具,能夠及時(shí)發(fā)現(xiàn)并解決集群性能和運(yùn)行問題;
8. 了解 Kerberos、Sentry 等安全組件的配置和使用,有數(shù)據(jù)安全和權(quán)限管理經(jīng)驗(yàn)者優(yōu)先;
9. 掌握 Shell、Python 等腳本語言,能夠編寫自動(dòng)化運(yùn)維腳本者優(yōu)先;
10. 具備較強(qiáng)的問題分析和解決能力,能夠快速定位并處理集群各類故障;
11. 具有良好的溝通協(xié)調(diào)能力和團(tuán)隊(duì)合作精神,能夠高效地進(jìn)行跨團(tuán)隊(duì)協(xié)作;
12. 工作認(rèn)真負(fù)責(zé)、嚴(yán)謹(jǐn)細(xì)致,具有較強(qiáng)的責(zé)任心和抗壓能力;
13. 有持續(xù)學(xué)習(xí)的意愿和能力,能夠及時(shí)掌握大數(shù)據(jù)領(lǐng)域的新技術(shù)和新動(dòng)態(tài);
14. 根據(jù)項(xiàng)目及客戶需求,服從領(lǐng)導(dǎo)和公司安排的辦公地點(diǎn)調(diào)度和出差;
15. 根據(jù)項(xiàng)目進(jìn)度及需求,有義務(wù)配合關(guān)聯(lián)部門的協(xié)助工作;
有義務(wù)遵守公司最新的員工手冊、保密協(xié)議、考核規(guī)則等規(guī)章制度