崗位職責:
1.負責智算中心IT設施的交付,服務器上架與裝機;
2.負責智算中心IT設施設備的驗收與測試,bios、布線、接口等硬件參數(shù)調試;
3.負責服務器的故障處理和跟進、軟硬件參數(shù)調優(yōu)、軟硬件性能測試與優(yōu)化;
4.負責在硬件層面支持智算中心IT自動化運維平臺的開發(fā)、部署、日常運行優(yōu)化工作;
5.面向企業(yè)級AI計算和高性能計算應用場景,組織實施智能算力集群的建設、運維、優(yōu)化工作:
6.評估各類異構AI計算芯片,在各類場景下的適配性,組織算力調度系統(tǒng)研發(fā)工作;
7.設計、優(yōu)化、評估智算中心網(wǎng)絡,測試、評估各類軟、硬件及方案適配性;
8.支撐算力用戶設計并實施個性化解決方案,配合用戶完成算力增值服務。
任職要求:
1.熟悉主流GPU硬件架構,熟悉環(huán)境部署,有智算中心排障調優(yōu)經(jīng)驗;
2.熟悉至少一種主流深度學習編程框架、熟悉智算底層架構和實現(xiàn)機制;
3.熟悉liuxn,網(wǎng)絡設備、安全設備,有相關認證優(yōu)先;
4.有全流程的LLM/多模態(tài)大模型部署應用經(jīng)驗,熟悉多機、多卡集群的部署、調優(yōu);
5.具備扎實的編程能力,良好的工程素養(yǎng),團隊合作能力和溝通能力強,抗壓能力強,具有較強的自我驅動力;
6、有云計算,存儲經(jīng)驗,有相關認證優(yōu)先;
7、熟悉Docker和Kubernetes;
8、一定的腳本編寫能力;
9、熟悉監(jiān)控工具;
10、對服務器硬件及參數(shù),硬件適配、排障有一定了解。