崗位職責(zé):
1、核心職責(zé)聚焦于構(gòu)建可靠、高效、安全合規(guī)的AI數(shù)據(jù)基礎(chǔ)設(shè)施;
2、負(fù)責(zé)AI模型訓(xùn)練推理數(shù)據(jù)的全流程管理以及數(shù)據(jù)版本控制及質(zhì)量評估;
3、設(shè)計實現(xiàn)高吞吐、低延遲的數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)流程,以支持模型訓(xùn)練和評估;使用工具或開發(fā)自動化工具/腳本(如Python)處理大規(guī)模數(shù)據(jù),包括多源數(shù)據(jù)采集、噪聲過濾、去重、缺值補充、存儲、訪問和加載等;
4、設(shè)計數(shù)據(jù)存儲架構(gòu),包括數(shù)據(jù)庫選型(關(guān)系/非關(guān)系型、向量數(shù)據(jù)庫/時序數(shù)據(jù)庫)、數(shù)據(jù)表、存儲過程、訪問控制、性能優(yōu)化、冗余備份等;
5、按需實施隱私計算(聯(lián)邦學(xué)習(xí)/差分隱私)及脫敏策略,確保訓(xùn)練數(shù)據(jù)符合GDPR/《個保法》要求;
6、按需構(gòu)建數(shù)據(jù)質(zhì)量監(jiān)控平臺,定義并自動化校驗數(shù)據(jù)完整性、一致性及分布偏移指標(biāo)(如PSI)。
任職要求:
1、計算機/統(tǒng)計學(xué)相關(guān)專業(yè),2年以上數(shù)據(jù)工程經(jīng)驗;
2、精通Python/SQL,熟練使用 PySpark/Pandas 進行大規(guī)模數(shù)據(jù)處理;
3、具有編寫自動化工具、腳本或使用分布式計算工具/ETL工具(如Hadoop、Spark、Talend等)進行數(shù)據(jù)ETL的能力與實際工程經(jīng)驗;
4、具有設(shè)計數(shù)據(jù)存儲架構(gòu)的能力與實際工程經(jīng)驗;
5、熟悉電力、氣象、光伏等領(lǐng)域和設(shè)備的數(shù)據(jù)處理、治理經(jīng)驗者優(yōu)先;
6、熟悉GDPR/《個人信息保護法》/隱私計算/脫敏策略者優(yōu)先。