一、工作職責(zé)
1. 負(fù)責(zé)GPU算力集群網(wǎng)絡(luò)架構(gòu)的規(guī)劃、部署與維護(hù),包括管理網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)及高速互聯(lián)網(wǎng)絡(luò)。負(fù)責(zé)以太網(wǎng)/InfiniBand/RoCE等的配置、優(yōu)化與故障排查,保障GPU節(jié)點、存儲節(jié)點、管理平臺之間的高可靠、低時延網(wǎng)絡(luò)通信。
3. 編寫和維護(hù)網(wǎng)絡(luò)架構(gòu)文檔、配置文檔及運維手冊。
2. 參與算力集群網(wǎng)絡(luò)性能調(diào)優(yōu),定位和解決分布式訓(xùn)練、推理場景下的網(wǎng)絡(luò)瓶頸問題,配合運維監(jiān)控團隊,制定網(wǎng)絡(luò)相關(guān)監(jiān)控指標(biāo)、告警規(guī)則及應(yīng)急處理流程。
二、任職要求
1. 本科及以上學(xué)歷,計算機、通信工程、網(wǎng)絡(luò)工程等相關(guān)專業(yè)優(yōu)先,3年及以上數(shù)據(jù)中心網(wǎng)絡(luò)或企業(yè)級網(wǎng)絡(luò)運維經(jīng)驗,有InfiniBand、RoCEv2、Mellanox/NVIDIA網(wǎng)絡(luò)設(shè)備運維經(jīng)驗者優(yōu)先。
2. 熟悉TCP/IP、VLAN、BGP、鏈路聚合、網(wǎng)絡(luò)冗余等基礎(chǔ)網(wǎng)絡(luò)技術(shù),具備較強的網(wǎng)絡(luò)故障定位與分析能力,能夠快速恢復(fù)網(wǎng)絡(luò)服務(wù)。
3. 具備CCIE/HCIE或同等水平網(wǎng)絡(luò)專業(yè)認(rèn)證,有IBTA認(rèn)證者優(yōu)先。
三、薪資待遇
稅前每月15K-20K,具體待遇面議