崗位職責(zé):
1、負(fù)責(zé)AI算力等智算領(lǐng)域相關(guān)基礎(chǔ)設(shè)施技術(shù)發(fā)展,編寫智算領(lǐng)域技術(shù)發(fā)展戰(zhàn)略和規(guī)劃;
2、負(fù)責(zé)設(shè)計(jì)并開(kāi)發(fā)高性能、可擴(kuò)展的AI基礎(chǔ)設(shè)施架構(gòu),包含組網(wǎng)、存儲(chǔ)、Kubernetes容器集群等GPU計(jì)算集群等;
3、負(fù)責(zé)按業(yè)務(wù)場(chǎng)景開(kāi)發(fā)針對(duì)訓(xùn)練、推理等場(chǎng)景的AI基礎(chǔ)架構(gòu)解決方案;
4、負(fù)責(zé)優(yōu)化并運(yùn)營(yíng)AI基礎(chǔ)設(shè)施及資源平臺(tái),提升AI資源利用率;
5、負(fù)責(zé)與算法團(tuán)隊(duì)、技術(shù)開(kāi)發(fā)團(tuán)隊(duì)合作,優(yōu)化模型架構(gòu)與計(jì)算資源的匹配效率,為業(yè)務(wù)團(tuán)隊(duì)提供底層技術(shù)支持和性能調(diào)優(yōu)方案。
任職要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)、電子相關(guān)專業(yè)優(yōu)先;
2、8年以上工作經(jīng)驗(yàn),至少5年AI、大模型領(lǐng)域相關(guān)經(jīng)驗(yàn);
3、熟悉主流或國(guó)產(chǎn)GPU算力體系和技術(shù)架構(gòu),有大規(guī)模分布式系統(tǒng)、云計(jì)算平臺(tái)實(shí)戰(zhàn)經(jīng)驗(yàn)或智算中心建設(shè)經(jīng)驗(yàn)者優(yōu)先;
4、深入理解計(jì)算機(jī)網(wǎng)絡(luò)(如 TCP/IP、BGP、VxLAN)、分布式存儲(chǔ)系統(tǒng)、GPU硬件等原理;
5、熟悉容器技術(shù)(如 Docker、Kubernetes),掌握至少一種編程語(yǔ)言(如 Python、Go、C++),具備一定的K8s 集群的部署、管理及優(yōu)化經(jīng)驗(yàn);
6、熟悉 GPU 計(jì)算生態(tài)系統(tǒng)(如 NVIDIA GPU Operator、CUDA 等),具備 GPU 性能調(diào)優(yōu)經(jīng)驗(yàn);
7、熟悉大模型技術(shù)相關(guān)理論知識(shí),具備全流程的LLM/多模態(tài)大模型部署應(yīng)用經(jīng)驗(yàn),熟悉多機(jī)多卡集群的部署和調(diào)優(yōu);
8、具備較強(qiáng)的問(wèn)題分析與解決能力,能快速定位并解決復(fù)雜系統(tǒng)問(wèn)題,善于與團(tuán)隊(duì)成員及跨部門協(xié)作,推動(dòng)項(xiàng)目高效落地。