平臺運維工程師
崗位職責(zé)
1.負責(zé)HPC集群及大數(shù)據(jù)平臺的全程運維,包括硬件監(jiān)控、性能調(diào)優(yōu)、故障處理
2.負責(zé)維護和管理軟件license服務(wù)器,解決許可證調(diào)度問題
3.維護Linux系統(tǒng)及作業(yè)調(diào)度系統(tǒng),保障計算資源高效分配
4.管理MySQL/ClickHouse等數(shù)據(jù)庫集群,設(shè)計高可用與數(shù)據(jù)遷移方案
5.構(gòu)建Docker/Kubernetes容器化環(huán)境,支持CAE軟件容器化部署與運行
6.開發(fā)運維自動化工具(Python/Shell+Ansible),完善監(jiān)控與告警體系
7.制定運維文檔及應(yīng)急預(yù)案,提高故障響應(yīng)效率。
技能要求
1.本科及以上學(xué)歷,3年+HPC/大數(shù)據(jù)運維經(jīng)驗,扎實的Linux及Shell能力
2.精通MySQL運維(高可用/數(shù)據(jù)遷移),熟悉Nginx配置與安全優(yōu)化
3.掌握容器化技術(shù)(Docker/K8s),有自動化運維工具(Ansible/SaltStack)實戰(zhàn)經(jīng)驗
4.了解HPC并行計算(MPI/OpenMP)及作業(yè)調(diào)度系統(tǒng)(Slurm/LSF)
5.了解Python/Shell自動化腳本,通過腳本實現(xiàn)簡易的自動化功"
知識要求
1.熟悉CAE軟件(LS-DYNA/STAR-CCM+/Abaqus等)或License管理(FlexLM/RLM)
2.有數(shù)據(jù)庫跨平臺同步、Lustre/InfiniBand性能優(yōu)化經(jīng)驗