崗位職責(zé):
1.統(tǒng)籌公司人工智能數(shù)據(jù)資產(chǎn)(圖像、文本、語(yǔ)音、視頻、多模態(tài)等)的樣本集規(guī)劃、采集、標(biāo)注、質(zhì)檢、版本管理與生命周期治理,建立覆蓋原始數(shù)據(jù)→標(biāo)注數(shù)據(jù)→訓(xùn)練數(shù)據(jù)→評(píng)測(cè)數(shù)據(jù)的端到端閉環(huán)流程。
2.制定并持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量、安全、合規(guī)與成本指標(biāo)體系,通過(guò)自動(dòng)化質(zhì)檢腳本、統(tǒng)計(jì)抽樣、眾包/外包管理、AIGC輔助標(biāo)注等手段,確保樣本集滿(mǎn)足算法迭代與業(yè)務(wù)上線(xiàn)的高標(biāo)準(zhǔn)需求。
3.建設(shè)數(shù)據(jù)可視化與洞察平臺(tái),對(duì)樣本分布、標(biāo)注質(zhì)量、使用熱度、合規(guī)風(fēng)險(xiǎn)等進(jìn)行多維度監(jiān)控與預(yù)警。
4.完成公司交辦的其他工作任務(wù)。
任職要求:
1.工作經(jīng)驗(yàn):具有3年以上AI數(shù)據(jù)工程或數(shù)據(jù)集管理核心崗位經(jīng)驗(yàn)優(yōu)先,獨(dú)立負(fù)責(zé)過(guò)至少1個(gè)千萬(wàn)級(jí)樣本規(guī)模的多模態(tài)數(shù)據(jù)集從0到1的建設(shè)與持續(xù)運(yùn)營(yíng)優(yōu)先。
2.能力要求:
(1)熟悉Git-LFS、DVC、DeltaLake或HuggingFacedatasets等數(shù)據(jù)版本管理方案;
(2)熟悉數(shù)據(jù)標(biāo)注流程與質(zhì)量控制體系,熟練運(yùn)用LabelStudio、CVAT、Prodigy、ScaleAI、AmazonSageMakerGroundTruth等平臺(tái);
(3)熟悉自動(dòng)化質(zhì)檢(IoU、一致性檢驗(yàn)、黃金集、交叉驗(yàn)證等);
(4)熟悉數(shù)據(jù)合規(guī)與隱私保護(hù),了解GDPR、CCPA、《個(gè)人信息保護(hù)法》等國(guó)內(nèi)外法規(guī),掌握數(shù)據(jù)脫敏、差分隱私、聯(lián)邦學(xué)習(xí)、可信執(zhí)行環(huán)境(TEE)等落地方法。