1、日常運維管理:承擔平臺的日常運維任務(wù),涵蓋服務(wù)器資源管理、服務(wù)狀態(tài)監(jiān)控及數(shù)據(jù)備份與恢復(fù),保障平臺持續(xù)穩(wěn)定運行和數(shù)據(jù)安全。
2、性能監(jiān)控與優(yōu)化:實時跟蹤平臺性能指標,及時定位并解決系統(tǒng)卡頓、數(shù)據(jù)處理效率低等問題,通過優(yōu)化平臺配置、調(diào)整資源分配策略,提升整體運行性能。
3、故障排查與應(yīng)急響應(yīng):負責平臺故障的排查與修復(fù),制定應(yīng)急預(yù)案并定期演練,確保故障發(fā)生時快速恢復(fù)業(yè)務(wù);深入分析故障原因,總結(jié)經(jīng)驗并提出改進措施,預(yù)防同類問題再次發(fā)生。
4、技術(shù)支持與項目協(xié)作:為數(shù)據(jù)團隊和開發(fā)團隊提供平臺相關(guān)的技術(shù)支持與建議,協(xié)助完成數(shù)據(jù)處理和應(yīng)用開發(fā)工作;參與大數(shù)據(jù)項目的部署與上線,保障項目順利實施。
5、技術(shù)迭代與團隊賦能:關(guān)注技術(shù)發(fā)展趨勢,持續(xù)學(xué)習(xí)新技術(shù)與工具,優(yōu)化運維流程和方法;負責新入職運維人員的技術(shù)培訓(xùn)與指導(dǎo),提升團隊整體技術(shù)能力。
【任職要求】
一、教育背景:本科及以上學(xué)歷,計算機相關(guān)專業(yè)。
二、專業(yè)經(jīng)驗:3年及以上運維經(jīng)驗(熟悉 Flink、Hadoop、Spark 等主流大數(shù)據(jù)平臺的安裝、配置、維護及故障排除者優(yōu)先)。
三、技術(shù)能力:
【基礎(chǔ)項】
1.精通 Kubernetes 集群的架構(gòu)設(shè)計部署、性能調(diào)優(yōu)、故障排查。
2.熟練掌握 Prometheus、ELK、Kafka、數(shù)據(jù)庫等常用的運維工具。
3.具有建立和完善的 CI/CD 自動化流水線體系的能力。
4.具有設(shè)計和實施整體安全架構(gòu)的能力。
5.具有制定災(zāi)備演練、應(yīng)急預(yù)案的能力。
6.熟悉計算機網(wǎng)絡(luò),能夠利用常見的網(wǎng)絡(luò)故障分析工具和方法分析網(wǎng)絡(luò)故障。
【加分項】
1、 大數(shù)據(jù)項目相關(guān)經(jīng)驗(大數(shù)據(jù)集群的搭建部署、數(shù)據(jù)倉庫、數(shù)據(jù)分析、用到了 hadoop,spark,hive ,yarn,HDFS 這些關(guān)鍵技術(shù))
2、 Java開發(fā)經(jīng)驗
3、 工單系統(tǒng)開發(fā)經(jīng)驗
4、 熟悉Nginx, Haproxy等接入層技術(shù)方案
5、 消息隊列(kafka、rabbitMQ)
6、 了解公有云服務(wù)體系,熟悉IaaS、PaaS、SaaS等;
7、有對項目(系統(tǒng)、架構(gòu)、網(wǎng)絡(luò)調(diào)優(yōu))做過優(yōu)化的經(jīng)驗。
【為什么選擇我們?】
我們鼓勵并堅持自下而上的管理理念,挖掘每一位員工的能力。公司通過系統(tǒng)化的項目實踐平臺與管理賦能機制,為優(yōu)秀的員工提供參與項目運作及跨部門協(xié)作管理的機會。
我們關(guān)心員工的個人成長,相信用人所長才能創(chuàng)造團隊的最大價值。我們注重員工的專業(yè)學(xué)習(xí)與沉淀,我們相信慢即是快。為你提供不拘泥于固定的工作內(nèi)容。你將在各類型項目、研究中快速學(xué)習(xí)和突破,迅速提升核心能力,從專才到通才,與公司共同發(fā)展。
我們推崇并踐行坦誠、直接的內(nèi)部文化。這不僅僅是為了創(chuàng)造舒適、高效的溝通環(huán)境,更是為了幫助每個人直面自己的不足,獲得真正的成長。
【我們的福利】
工作地點:廣州南沙區(qū)4號線南橫地鐵站附近
工作時間:五天8小時制,周末雙休,工作與家庭兼顧
工作環(huán)境:舒適、優(yōu)美、高效
工作氛圍:靈活、開放、創(chuàng)新、有追求
薪酬福利:根據(jù)崗位性質(zhì)提供具有市場競爭力的薪酬水平