我們正在招募一名資深存儲(chǔ)與數(shù)據(jù)運(yùn)維專(zhuān)家,負(fù)責(zé)設(shè)計(jì)、運(yùn)維和優(yōu)化智算中心的高性能存儲(chǔ)架構(gòu)(GPFS、Lustre)及混合存儲(chǔ)體系(GlusterFS、對(duì)象存儲(chǔ)等)。您將確保存儲(chǔ)系統(tǒng)高效支撐AI訓(xùn)練、大規(guī)模數(shù)據(jù)分析等核心業(yè)務(wù),同時(shí)推動(dòng)存儲(chǔ)性能調(diào)優(yōu)、智能化運(yùn)維及跨技術(shù)棧協(xié)同,保障數(shù)據(jù)服務(wù)的穩(wěn)定性、高吞吐與低延遲。
??主要職責(zé):??
- ??高性能存儲(chǔ)管理??:
- 部署、維護(hù)及調(diào)優(yōu)GPFS、Lustre等高性能并行文件系統(tǒng),解決AI分布式訓(xùn)練中的高并發(fā)I/O性能瓶頸。
- 設(shè)計(jì)混合存儲(chǔ)架構(gòu)(塊/文件/對(duì)象存儲(chǔ)),管理GlusterFS分布式存儲(chǔ)、對(duì)象存儲(chǔ)(如Ceph S3)的容量規(guī)劃與數(shù)據(jù)分層策略。
- ??存儲(chǔ)自動(dòng)化與監(jiān)控??:
- 開(kāi)發(fā)自動(dòng)化工具管理存儲(chǔ)集群生命周期(擴(kuò)容、故障自愈、負(fù)載均衡),利用Prometheus/Grafana構(gòu)建實(shí)時(shí)監(jiān)控體系,實(shí)現(xiàn)性能預(yù)警與根因分析。
- 結(jié)合AI工具分析存儲(chǔ)日志,預(yù)測(cè)硬件故障或性能波動(dòng),優(yōu)化存儲(chǔ)資源調(diào)度策略。
- ??跨領(lǐng)域協(xié)同??:
- 與AI算法團(tuán)隊(duì)協(xié)作,優(yōu)化訓(xùn)練數(shù)據(jù)集在GPFS/Lustre上的存儲(chǔ)布局,提升大規(guī)模模型訓(xùn)練效率。
- ??容災(zāi)與安全??:
- 制定GPFS/Lustre跨集群容災(zāi)方案,設(shè)計(jì)對(duì)象存儲(chǔ)數(shù)據(jù)冗余策略,保障PB級(jí)數(shù)據(jù)安全性與業(yè)務(wù)連續(xù)性。
- 參與7×24值班輪換,快速響應(yīng)存儲(chǔ)相關(guān)緊急故障。
??任職資格:??
- ??必備條件??:
- 計(jì)算機(jī)科學(xué)、存儲(chǔ)工程或相關(guān)領(lǐng)域本科及以上學(xué)歷,1年以上高性能存儲(chǔ)系統(tǒng)(GPFS/Lustre)運(yùn)維經(jīng)驗(yàn)。
- 了解GPFS/Lustre架構(gòu)設(shè)計(jì)、參數(shù)調(diào)優(yōu)及故障排查,熟悉并行文件系統(tǒng)在AI/HPC場(chǎng)景下的性能優(yōu)化方法。
- 了解GlusterFS等分布式存儲(chǔ)技術(shù),具備對(duì)象存儲(chǔ)(如AWS S3、MinIO)集成管理經(jīng)驗(yàn)。
- 熟練使用Python/Go開(kāi)發(fā)存儲(chǔ)自動(dòng)化腳本,掌握Ansible/Terraform等IaC工具。
- 熟悉存儲(chǔ)硬件生態(tài)(如全閃存陣列、NVMe-oF協(xié)議)及網(wǎng)絡(luò)優(yōu)化(InfiniBand/RoCE)。
- ??優(yōu)先條件??:
- 具有IBM Spectrum Scale(GPFS)或Lustre官方認(rèn)證,或超算中心存儲(chǔ)運(yùn)維背景。
- 熟悉AI訓(xùn)練數(shù)據(jù)流水線(xiàn)(如TensorFlow/PyTorch數(shù)據(jù)集加載優(yōu)化)或向量數(shù)據(jù)庫(kù)存儲(chǔ)方案。
- 具備存儲(chǔ)性能分析工具經(jīng)驗(yàn)(如GPFS Monitoring、Lustre Monitoring Tool)。
- 了解存儲(chǔ)與計(jì)算分離架構(gòu),或有GPU加速存儲(chǔ)讀取實(shí)踐經(jīng)驗(yàn)。
??我們提供:??
- 參與千億參數(shù)大模型訓(xùn)練、多模態(tài)AI研發(fā)等前沿場(chǎng)景的存儲(chǔ)系統(tǒng)建設(shè)。
- 直面EB級(jí)數(shù)據(jù)規(guī)模和百GB/s級(jí)吞吐挑戰(zhàn)的技術(shù)成長(zhǎng)環(huán)境。
如果您對(duì)此職位感興趣,請(qǐng)?zhí)峤荒暮?jiǎn)歷和求職信進(jìn)行申請(qǐng)。我們期待您的回音!