崗位職責:
1、數(shù)據(jù)體系建設:負責構建和優(yōu)化面向AI的數(shù)據(jù)基礎設施,包括數(shù)據(jù)中臺、數(shù)據(jù)湖及實時數(shù)據(jù)采集管道,支撐海量語料庫與知識圖譜的穩(wěn)定運行。
2、數(shù)據(jù)處理與治理:負責多模態(tài)數(shù)據(jù)(文本、圖像、業(yè)務數(shù)據(jù))的ETL工作,制定數(shù)據(jù)質(zhì)量標準與版本管理體系,確保AI模型訓練數(shù)據(jù)的有效性、豐富性與安全性。
3、特征工程支撐:深度參與模型開發(fā)全流程,與算法團隊協(xié)作進行數(shù)據(jù)探索、特征工程構建及數(shù)據(jù)維度分析,提升模型訓練效果。
4、管道效率優(yōu)化:持續(xù)優(yōu)化數(shù)據(jù)處理邏輯與架構性能,保障從原始數(shù)據(jù)采集到訓練數(shù)據(jù)交付的全鏈路高吞吐與低延遲。
任職要求:
1、教育背景:計算機科學、數(shù)據(jù)科學、軟件工程或相關專業(yè)本科及以上學歷。
編程能力:熟練掌握 Python 編程,具備扎實的代碼規(guī)范;熟悉 SQL,并能進行復雜查詢與性能調(diào)優(yōu)。
2、框架知識:熟悉大數(shù)據(jù)處理框架(如 Spark、Flink)及消息隊列(如 Kafka);了解數(shù)據(jù)湖/數(shù)據(jù)倉庫架構設計。
3、AI知識儲備:理解機器學習全流程,具備數(shù)據(jù)清洗、標注體系搭建或特征工程的實際項目經(jīng)驗;對向量數(shù)據(jù)庫或MLOps有實踐者優(yōu)先。
4、綜合素質(zhì):具備優(yōu)秀的問題分析與解決能力,能在復雜數(shù)據(jù)環(huán)境中保持邏輯清晰;對AI技術充滿熱情,主動關注行業(yè)前沿動態(tài)。