崗位職責(zé)
1、負責(zé)AI相關(guān)服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備的規(guī)劃、配置、監(jiān)控和故障排除;
2、負責(zé)AI相關(guān)平臺環(huán)境的搭建、發(fā)布升級、運維監(jiān)控等,保障服務(wù)器穩(wěn)定性和可用性。
3、負責(zé)處理線上故障,分析原因,設(shè)計解決方案和應(yīng)急預(yù)案;
4、針對公司基礎(chǔ)設(shè)施、相關(guān)產(chǎn)品及數(shù)據(jù),規(guī)劃安全運維策略,預(yù)防各類安全威脅,保障 AI 系統(tǒng)數(shù)據(jù)與業(yè)務(wù)安全;
5、協(xié)助編寫項目相關(guān)文檔,配合項目經(jīng)理完成項目管理工作,推動項目驗收;
任職要求
1、精通 Linux、Windows 相關(guān)服務(wù)器操作,能夠熟練進行服務(wù)器的安裝、配置、調(diào)優(yōu)以及故障排查;
2、熟練掌握網(wǎng)絡(luò)基礎(chǔ)知識,了解容器技術(shù)(如 Docker、Kubernetes),熟悉主流公有云及相關(guān)產(chǎn)品操作;
3、掌握主流的數(shù)據(jù)庫(如 MySQL、PostgreSQL 等)安裝、維護、調(diào)優(yōu)等操作,了解數(shù)據(jù)庫的備份與恢復(fù)策略;
4、熟悉至少一種自動化運維工具(Ansible、SaltStack、Puppet 等),有較強的腳本編寫能力(Shell、Python 等),能夠獨立開發(fā)自動化運維腳本;
5、熟悉 AI 相關(guān)技術(shù)棧,包括深度學(xué)習(xí)框架(TensorFlow、PyTorch 等)的部署與運維,有 GPU 集群管理經(jīng)驗,了解GPU虛擬化技術(shù);