崗位職責(zé):
- 主導(dǎo)超大規(guī)模AI數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)與實(shí)施,包括高性能網(wǎng)絡(luò)協(xié)議優(yōu)化(如RDMA、RoCE、CXL等)、算網(wǎng)一體架構(gòu)設(shè)計(jì)及網(wǎng)絡(luò)虛擬化技術(shù)應(yīng)用;
- 構(gòu)建軟硬件協(xié)同的高性能網(wǎng)絡(luò)解決方案,覆蓋DPU/SmartNIC可編程網(wǎng)絡(luò)開發(fā)、SONiC/P4網(wǎng)絡(luò)協(xié)議棧優(yōu)化;
- 設(shè)計(jì)AIDC網(wǎng)絡(luò)性能評(píng)估體系,針對(duì)網(wǎng)絡(luò)吞吐量、傳輸時(shí)延、容錯(cuò)性等核心指標(biāo)進(jìn)行調(diào)優(yōu);
- 制定網(wǎng)絡(luò)運(yùn)維規(guī)范與容災(zāi)方案,主導(dǎo)Zabbix/Ansible等工具鏈的自動(dòng)化運(yùn)維體系建設(shè);
- 研究AI/HPC場(chǎng)景下的網(wǎng)絡(luò)前沿技術(shù)(如量子通信、光互連技術(shù)),推動(dòng)下一代算力原生網(wǎng)絡(luò)落地。
技能要求:
- 核心技術(shù)能力:
? 精通數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),具備大規(guī)模AI/HPC網(wǎng)絡(luò)(≥10,000節(jié)點(diǎn))設(shè)計(jì)經(jīng)驗(yàn);
? 掌握集合通信技術(shù)(NCCL/MPI/Gloo)與擁塞控制算法(DCQCN/UEC)的深度調(diào)優(yōu);
? 熟悉網(wǎng)絡(luò)可編程技術(shù)(P4/DOCA)及智能網(wǎng)卡硬件加速方案;
? 具備Tier標(biāo)準(zhǔn)、ITIL規(guī)范等數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)標(biāo)準(zhǔn)落地經(jīng)驗(yàn)。 - 工程能力:
? 熟練使用C/C++開發(fā)高性能網(wǎng)絡(luò)組件,5年以上系統(tǒng)級(jí)網(wǎng)絡(luò)協(xié)議開發(fā)經(jīng)驗(yàn);
? 精通Linux內(nèi)核網(wǎng)絡(luò)模塊調(diào)試,熟悉網(wǎng)絡(luò)性能分析工具(Perf/BPF);
? 掌握TCP/IP協(xié)議棧優(yōu)化及網(wǎng)絡(luò)安全防護(hù)體系設(shè)計(jì)。
加分項(xiàng):
? 熟悉深度學(xué)習(xí)框架(PyTorch/TensorFlow)與AI模型訓(xùn)練網(wǎng)絡(luò)需求;
? 具有網(wǎng)絡(luò)碳排放優(yōu)化經(jīng)驗(yàn)(CUE指標(biāo)管理);
? 具備團(tuán)隊(duì)管理經(jīng)驗(yàn)及AI行業(yè)技術(shù)趨勢(shì)洞察能力;
? CCIE/HCIE等認(rèn)證者優(yōu)先
學(xué)歷要求:
? 計(jì)算機(jī)/通信/電子工程本科及以上學(xué)歷,具備CCIE/HCIE等認(rèn)證優(yōu)先。