職責(zé)描述:
1、協(xié)助搭建與維護(hù)AI算力平臺(tái)的運(yùn)行環(huán)境,參與Kubernetes集群的部署、配置與日常運(yùn)維,保障平臺(tái)高可用性;
2、在指導(dǎo)下使用Kubernetes YAML文件(Deployment、Service、ConfigMap、Secret、PersistentVolume 等),完成AI應(yīng)用的部署、擴(kuò)縮容與版本更新;
3、參與NVIDIA GPU或NPU等異構(gòu)計(jì)算設(shè)備的驅(qū)動(dòng)安裝、環(huán)境配置與基礎(chǔ)性能測試,確保AI訓(xùn)練/推理任務(wù)正常運(yùn)行;
4、協(xié)助完成系統(tǒng)監(jiān)控(Prometheus/Grafana)、日志收集(ELK/Fluentd)、數(shù)據(jù)備份與故障排查,提升系統(tǒng)穩(wěn)定性與可維護(hù)性;
5、編寫標(biāo)準(zhǔn)化部署文檔、操作手冊與故障處理指南,參與團(tuán)隊(duì)知識(shí)庫建設(shè),推動(dòng)技術(shù)沉淀與協(xié)作效率提升;
6、配合研發(fā)團(tuán)隊(duì)完成 CI/CD 流水線的優(yōu)化與部署,支持 AI 模型的快速迭代與上線。
職位要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程、網(wǎng)絡(luò)、自動(dòng)化或相關(guān)專業(yè),工作3-5年工作經(jīng)驗(yàn)者優(yōu)先。
2、熟悉Linux 基礎(chǔ)操作(文件管理、權(quán)限、進(jìn)程、網(wǎng)絡(luò)配置),能獨(dú)立完成命令行操作。
3、了解Docker 基本概念,能使用 docker run、docker-compose up等命令運(yùn)行容器服務(wù)。
4、了解Kubernetes 基本概念(Pod、Deployment、Service),能閱讀和修改簡單的 YAML 文件。
5、了解Nginx 或 Traefik 的基本配置,能完成域名映射、端口轉(zhuǎn)發(fā)等基礎(chǔ)任務(wù)。
6、有NVIDIA GPU 驅(qū)動(dòng)、CUDA 或 Docker 安裝經(jīng)驗(yàn)者優(yōu)先(如課程項(xiàng)目、實(shí)驗(yàn)環(huán)境搭建)。
7、有使用 Git、Shell 腳本、日志分析等工具的經(jīng)驗(yàn),具備基本的自動(dòng)化意識(shí)。
8、學(xué)習(xí)能力強(qiáng),責(zé)任心強(qiáng),有良好的溝通能力和團(tuán)隊(duì)協(xié)作精神,能接受技術(shù)挑戰(zhàn)