【硬性條件:】
2年以上工作經(jīng)驗(yàn);
本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)
【工作內(nèi)容:】
1. 負(fù)責(zé)公司智能代碼助手(大模型產(chǎn)品)的部署、實(shí)施和環(huán)境配置,保障系統(tǒng)穩(wěn)定持續(xù)運(yùn)行;
2. 搭建和維護(hù)基于 Kubernetes(K8s)和 Docker 的容器化部署環(huán)境,實(shí)現(xiàn)應(yīng)用與模型服務(wù)的自動(dòng)化部署和管理;
3. 參與部署流水線的設(shè)計(jì)與優(yōu)化,提升產(chǎn)品交付效率和部署質(zhì)量;
4. 負(fù)責(zé)應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù)、中間件及大模型相關(guān)服務(wù)(如推理服務(wù)、API服務(wù)等)的安裝、配置、升級(jí)與維護(hù);
5. 協(xié)助開(kāi)發(fā)、算法團(tuán)隊(duì)定位和解決在部署、運(yùn)行中出現(xiàn)的環(huán)境、網(wǎng)絡(luò)及模型服務(wù)相關(guān)問(wèn)題;
6. 編寫(xiě)和維護(hù)部署、運(yùn)維相關(guān)的文檔及自動(dòng)化腳本,持續(xù)改進(jìn)運(yùn)維流程,提升系統(tǒng)可維護(hù)性和自動(dòng)化水平;
7. 負(fù)責(zé)系統(tǒng)安全、數(shù)據(jù)備份、服務(wù)監(jiān)控等的配置與優(yōu)化,確保大模型服務(wù)的高可用與安全合規(guī);
8. 定期對(duì)系統(tǒng)進(jìn)行巡檢,保障系統(tǒng)安全、穩(wěn)定、高效運(yùn)行。
【崗位要求:】
1. 本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)優(yōu)先,2年以上軟件部署實(shí)施或運(yùn)維相關(guān)經(jīng)驗(yàn);
2. 熟練掌握 Linux 操作系統(tǒng),能夠獨(dú)立完成系統(tǒng)環(huán)境搭建及故障排查;
3. 精通 Docker、Kubernetes 等容器化技術(shù),有實(shí)際生產(chǎn)環(huán)境部署及維護(hù)經(jīng)驗(yàn);
4. 具備良好的網(wǎng)絡(luò)基礎(chǔ)知識(shí),能夠排查和解決常見(jiàn)網(wǎng)絡(luò)故障,理解 TCP/IP、HTTP、DNS 等協(xié)議原理;
5. 熟練掌握 Shell 腳本,能用 Python 或 Java 編寫(xiě)自動(dòng)化腳本或工具者優(yōu)先;
6. 熟悉常用中間件(如 Nginx、Redis、Kafka、MySQL 等)的安裝、配置和優(yōu)化;
7. 具備良好的溝通能力、團(tuán)隊(duì)協(xié)作意識(shí)和較強(qiáng)的責(zé)任心,能積極推動(dòng)項(xiàng)目落地;
8. 具備較強(qiáng)的問(wèn)題分析與解決能力,能承擔(dān)一定的工作壓力。
【經(jīng)驗(yàn)要求:】
1. 有大模型產(chǎn)品(如AIGC、智能代碼助手、LLM等)部署和運(yùn)維經(jīng)驗(yàn)優(yōu)先;
2. 有 GPU/AI 算力資源管理經(jīng)驗(yàn),熟悉 CUDA、NVIDIA 驅(qū)動(dòng)及 K8s 下 GPU 資源編排的優(yōu)先;
3. 熟悉模型監(jiān)控及日志收集方案(如 Prometheus、ELK 等)優(yōu)先;
4. 有與 AI 算法、模型開(kāi)發(fā)團(tuán)隊(duì)協(xié)作的經(jīng)驗(yàn),能理解產(chǎn)品迭代和上線流程;
5. 有 Helm等 K8s 生態(tài)工具使用經(jīng)驗(yàn);