1. 平臺構(gòu)建與部署:
負責基于國產(chǎn)化硬件(如鯤鵬)和操作系統(tǒng)(如麒麟OS、歐拉)以及國產(chǎn)化中間件(如東方通相關(guān)組件)的環(huán)境下,完成數(shù)據(jù)平臺相關(guān)產(chǎn)品的部署、配置與維護。
負責包括但不限于 Flink, Apache Doris, 小海豚調(diào)度器(DolphinScheduler), CDC工具(如Canal, Debezium), ETL工具(如DataX, Kettle) 等組件的安裝、升級和高可用集群搭建。
2. 系統(tǒng)運維與監(jiān)控:
建立并維護全面的監(jiān)控告警體系(如Prometheus+Grafana),對數(shù)據(jù)平臺的服務(wù)器資源、組件健康度、數(shù)據(jù)流延遲、任務(wù)調(diào)度狀態(tài)等進行7x24小時監(jiān)控與應急響應。
制定并執(zhí)行運維規(guī)范、應急預案、容災備份和恢復策略,保障數(shù)據(jù)平臺SLA。
3. 數(shù)據(jù)集成與開發(fā)支持:
CDC/ETL運維:維護和管理CDC數(shù)據(jù)捕獲管道,確保數(shù)據(jù)實時、準確地從業(yè)務(wù)庫同步至數(shù)據(jù)倉庫。運維和優(yōu)化ETL離線同步任務(wù)。
離線開發(fā)運維:負責 小海豚調(diào)度(DolphinScheduler) 平臺的日常運維,包括工作流管理、任務(wù)排錯、資源調(diào)配和性能優(yōu)化。
實時開發(fā)運維:負責 Apache Flink 實時計算平臺的運維,包括作業(yè)部署、狀態(tài)管理、資源監(jiān)控與調(diào)優(yōu),協(xié)助開發(fā)團隊解決運行時問題。
4. 數(shù)據(jù)倉庫運維:
負責 Apache Doris 集群的運維管理,包括節(jié)點擴容、數(shù)據(jù)備份、查詢性能優(yōu)化、數(shù)據(jù)規(guī)范審核及權(quán)限管理。
5. 產(chǎn)品部署升級方案及自動化運維:
編寫平臺產(chǎn)品的部署升級方案
編寫自動化腳本(Shell/Python/Ansible),實現(xiàn)部署、監(jiān)控、巡檢等任務(wù)的自動化,提升運維效率。
6. 國產(chǎn)化適配:
深入研究國產(chǎn)化軟硬件環(huán)境特性,解決數(shù)據(jù)平臺組件在國產(chǎn)化環(huán)境中遇到的兼容性、性能及穩(wěn)定性問題。
任職要求
1. 必備經(jīng)驗與技能:
熟悉Linux操作系統(tǒng),能熟練進行性能診斷、調(diào)優(yōu)及故障排查。
至少熟悉以下兩項技術(shù)的部署與運維:
實時計算:Apache Flink,了解其核心概念(如Checkpoint, Savepoint, State)和資源管理。
數(shù)據(jù)倉庫:Apache Doris(優(yōu)先)、StarRocks之一。
任務(wù)調(diào)度:小海豚調(diào)度(DolphinScheduler)。
熟悉數(shù)據(jù)集成技術(shù):有CDC(如Debezium, Flink CDC)和ETL(如DataX, Kettle, Seatunnel)工具的實際運維經(jīng)驗。
熟練使用至少一種編程或腳本語言,如Shell, Python, Java。
熟悉自動化配置管理工具,如Ansible、SaltStack等。
2. 加分項:
有實際的國產(chǎn)化環(huán)境(鯤鵬/飛騰/龍芯 + 麒麟OS/統(tǒng)信UOS + 國產(chǎn)數(shù)據(jù)庫及中間件) 運維部署經(jīng)驗者優(yōu)先
熟悉容器化技術(shù)(Docker, Kubernetes),有在K8s上部署運維數(shù)據(jù)組件的經(jīng)驗。
具備良好的網(wǎng)絡(luò)、存儲知識,能分析解決復雜的網(wǎng)絡(luò)性能問題。
3. 軟技能:
具備文檔編寫習慣,能清晰地記錄運維流程和技術(shù)方案。
具備強烈的責任心和優(yōu)秀的問題分析解決能力,能承擔壓力。
良好的溝通能力和團隊協(xié)作精神,能高效地與開發(fā)及業(yè)務(wù)部門協(xié)作。