崗位內(nèi)容:
1、設(shè)計、構(gòu)建、維護和優(yōu)化支撐AI模型訓練與迭代的大規(guī)模數(shù)據(jù)管道(Data Pipeline)。負責AI所需數(shù)據(jù)的采集、清洗、標注管理、存儲(數(shù)據(jù)湖/數(shù)據(jù)倉庫)與處理(ETL/ELT)。與算法工程師緊密合作,理解其數(shù)據(jù)需求,提供高質(zhì)量的訓練和評估數(shù)據(jù)集。
2、開發(fā)數(shù)據(jù)工具和平臺,支持高效的特征工程、特征存儲、特征版本管理和特征服務(wù)。確保數(shù)據(jù)的質(zhì)量、一致性、安全性和可訪問性,建立數(shù)據(jù)治理規(guī)范和流程。
3、探索和引入新的數(shù)據(jù)處理技術(shù)和工具,提升數(shù)據(jù)處理效率和智能化水平。負責數(shù)據(jù)基礎(chǔ)設(shè)施的選型、部署、監(jiān)控和調(diào)優(yōu)。
任職要求:
1. 具備扎實的計算機科學基礎(chǔ)和算法設(shè)計能力。
2. 精通至少一種編程語言(如Python、Java等),并熟悉軟件開發(fā)流程和工具。
3. 有良好的邏輯思維能力和問題解決能力。
4. 良好的英語閱讀和寫作能力,能夠閱讀和理解國外最新技術(shù)文獻。
任職資格:
1、計算機科學、軟件工程或相關(guān)專業(yè)本科及以上學歷。
2、扎實的計算機基礎(chǔ)(數(shù)據(jù)結(jié)構(gòu)、算法、操作系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫)。
3、精通至少一種后端開發(fā)語言(如Go, Java, Python, C++),具備良好的系統(tǒng)設(shè)計和編碼能力。
4、熟悉分布式系統(tǒng)原理和實踐,有高并發(fā)、高可用系統(tǒng)開發(fā)經(jīng)驗。
5、熟悉Linux系統(tǒng)及常用命令,具備良好的系統(tǒng)調(diào)試和性能優(yōu)化能力。
6、熟悉常見的中間件(如消息隊列Kafka/RabbitMQ, 緩存Redis/Memcached, 數(shù)據(jù)庫等)。
7、(加分項)有大型云平臺(AWS, Azure, GCP, 阿里云, 騰訊云等)開發(fā)和使用經(jīng)驗,熟悉云原生技術(shù)(Docker, Kubernetes, Service Mesh)。
8、(加分項)了解GPU計算、集群調(diào)度(如Slurm, Kubernetes batch job)或高性能計算(HPC)。
9、(加分項)了解AI/ML的基本概念和工作流程。
10、(加分項)有大規(guī)模系統(tǒng)監(jiān)控、日志分析、告警系統(tǒng)(如Prometheus, Grafana, ELK)建設(shè)經(jīng)驗。