崗位職責(zé):
1、負(fù)責(zé)基于Kubernetes的新一代分布式資源與作業(yè)調(diào)度平臺的設(shè)計與開發(fā),支撐大規(guī)模、高并發(fā)AI應(yīng)用的部署與計算任務(wù);
2、參與智能調(diào)度系統(tǒng)建設(shè),結(jié)合動態(tài)運行數(shù)據(jù)與機器學(xué)習(xí)技術(shù),實現(xiàn)資源的自動化、智能化與可視化調(diào)度,提升集群整體效率;
3、支持計算密集型(如AI訓(xùn)練/推理)、大數(shù)據(jù)處理、深度學(xué)習(xí)等多樣化業(yè)務(wù)在統(tǒng)一平臺上的混部調(diào)度與穩(wěn)定運行;
4、 主導(dǎo)平臺功能模塊的需求分析、技術(shù)方案設(shè)計、編碼實現(xiàn)與測試驗證,保障系統(tǒng)在高可用生產(chǎn)環(huán)境中的穩(wěn)定性和性能;
5、解決大規(guī)模分布式環(huán)境下的高并發(fā)、低延遲、資源競爭等核心技術(shù)難題,負(fù)責(zé)線上問題定位與系統(tǒng)性能優(yōu)化。
任職要求:
1、一本及以上學(xué)歷,計算機科學(xué)、軟件工程、人工智能或相關(guān)專業(yè);
2、具備2-5年后端開發(fā)經(jīng)驗,有大規(guī)模分布式系統(tǒng)、資源調(diào)度或AI平臺相關(guān)開發(fā)經(jīng)驗者優(yōu)先; 扎實的計算機基礎(chǔ),熟練掌握數(shù)據(jù)結(jié)構(gòu)、算法和操作系統(tǒng)原理;
3、精通 Golang(強烈優(yōu)先)、Rust、C++ 或 Java 中的至少一門語言,具備優(yōu)秀的系統(tǒng)調(diào)試、性能剖析能力及良好編碼習(xí)慣;
4、深入理解Kubernetes和Docker容器生態(tài),熟悉其核心概念、架構(gòu)及API,具備相關(guān)開發(fā)或運維經(jīng)驗;
5、具備微服務(wù)架構(gòu)或集群運維相關(guān)的后端開發(fā)經(jīng)驗,或擁有豐富的Go項目實踐經(jīng)驗;
6、具備2-3個完整項目經(jīng)驗,能夠清晰闡述個人在項目中的具體職責(zé)、技術(shù)架構(gòu)及實現(xiàn)細(xì)節(jié)。