我們正在招聘一名以 Ansible 自動化平臺 為核心的運(yùn)維工程師,負(fù)責(zé)對 IT 基礎(chǔ)設(shè)施進(jìn)行高效、穩(wěn)定、可擴(kuò)展的自動化運(yùn)維。該崗位需要具備一定的 SRE(Site Reliability Engineering)思想,通過自動化和工程化手段,減少人工操作,提高系統(tǒng)可靠性和運(yùn)維效率。
工作職責(zé):
1. 基于 Ansible / Ansible Automation Platform 設(shè)計(jì)、開發(fā)和維護(hù)自動化運(yùn)維方案
2. 將重復(fù)性、標(biāo)準(zhǔn)化的運(yùn)維工作盡量自動化,包括但不限于:
- 日常巡檢與健康檢查
- 操作系統(tǒng)與中間件補(bǔ)丁管理
- 常規(guī)與批量變更執(zhí)行
3. 建立和維護(hù)自動化運(yùn)維 Playbook、Role、Collection 及相關(guān)規(guī)范
4. 在系統(tǒng)或服務(wù)發(fā)生故障時(shí),利用自動化工具進(jìn)行:
- 初步故障診斷
- 信息采集與問題定位支持
- 已知問題的自動化修復(fù)
5. 結(jié)合 SRE 理念,持續(xù)優(yōu)化系統(tǒng)的穩(wěn)定性、可觀測性和可恢復(fù)性
6. 與開發(fā)、架構(gòu)及其他運(yùn)維團(tuán)隊(duì)協(xié)作,推動自動化和標(biāo)準(zhǔn)化運(yùn)維流程落地
7. 編寫和維護(hù)運(yùn)維文檔、自動化使用說明及最佳實(shí)踐
任職要求:
必備技能:
1. 熟悉 Linux 操作系統(tǒng)(如 RHEL / CentOS 等)的日常運(yùn)維
2. 具備 Ansible 實(shí)際使用經(jīng)驗(yàn),熟悉:
- Playbook、Role、Inventory、Variables
- 常見模塊及最佳實(shí)踐
3. 理解基礎(chǔ)的 IT 基礎(chǔ)設(shè)施組件,如:
- 服務(wù)器、網(wǎng)絡(luò)、存儲
- 常見中間件(Web Server、數(shù)據(jù)庫、緩存等)
4. 具備腳本能力,至少掌握一種:Shell / Python
5. 具備良好的問題分析和排障能力
思想與能力要求:
1. 具備 SRE 或 DevOps 思想,認(rèn)同“自動化優(yōu)先、減少人工介入”的運(yùn)維理念
2. 能夠?qū)⑦\(yùn)維經(jīng)驗(yàn)沉淀為自動化方案和標(biāo)準(zhǔn)流程
3. 對系統(tǒng)穩(wěn)定性、可用性和運(yùn)維效率有持續(xù)優(yōu)化意識
4. 具備良好的溝通能力和文檔習(xí)慣
加分項(xiàng)(非必須):
1. 有 Ansible Automation Platform / AWX / Tower 使用經(jīng)驗(yàn)
2. 了解 CI/CD 流程或與自動化運(yùn)維的集成方式
3. 有監(jiān)控與可觀測性經(jīng)驗(yàn)(如 Prometheus、Grafana、ELK 等)
4. 了解云平臺或混合云環(huán)境(OpenStack、阿里云、AWS、Azure 等)
5. 有應(yīng)急響應(yīng)、故障演練或穩(wěn)定性治理經(jīng)驗(yàn)
我們能提供:
1. 參與自動化和 SRE 體系建設(shè)的機(jī)會
2. 技術(shù)導(dǎo)向、工程文化濃厚的團(tuán)隊(duì)環(huán)境
3. 具有競爭力的薪酬與職業(yè)發(fā)展空間