職位摘要:我們正在尋找一位有才華的AIDC SRE7*24(三班倒班模式)IT值班運維工程師加入我們的團隊,負責輪班維護和改進我們AI數(shù)據(jù)中心的基礎設施。您將負責確保支持我們的AI應用程序的系統(tǒng)的可靠性、可擴展性和性能。
主要責任:
?監(jiān)控和管理硬件基礎設施的健康和性能,處理各種7*24支持中的主機,網(wǎng)絡,存儲等設備的問題。
?設計和實施解決方案以提高硬軟件系統(tǒng)的可靠性、可擴展性和性能。
?與網(wǎng)絡,存儲工程師及其他SRE密切合作,排除和解決AIDC相關的問題。
?與各供應商溝通合作,確保提供最佳解決方案來滿足我們的值班需求。
?參與值班輪換,為AIDC基礎設施提供全天候(24/7)支持。
任職資格:
?計算機、電氣、電子等相關領域的統(tǒng)招??萍耙陨蠈W位。
?2年以上擔任IDC值班運維或相關角色的經(jīng)驗。
?具有IDC硬件、操作系統(tǒng)及應用測試,運維和故障排除方面的相關經(jīng)驗。
?了解數(shù)據(jù)中心架構,包括服務器、存儲、網(wǎng)絡和電源系統(tǒng)。
?熟悉Linux服務器常用操作和管理。
?強大的分析和解決問題的能力。
?出色的溝通和團隊合作能力。
優(yōu)先資格:
?具有人工智能和機器學習硬件(例如GPU,IB交換機,以太交換機)的經(jīng)驗優(yōu)先。
?熟悉腳本語言優(yōu)先,例如Python或Bash。
?熟悉數(shù)據(jù)中心冷卻和通風系統(tǒng)知識優(yōu)先。
?善于使用AI工具輔助完成工作。