1、數(shù)據(jù)治理相關(guān)工作經(jīng)歷與經(jīng)驗(yàn),3年及以上工作經(jīng)驗(yàn);
2、學(xué)歷專科及以上;
3、數(shù)據(jù)全流程處理能力掌握程度
精通文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的全流程處理技術(shù),能獨(dú)立設(shè)計(jì)多源異構(gòu)數(shù)據(jù)的接入方案(如對(duì)接API接口、離線文件導(dǎo)入、實(shí)時(shí)流數(shù)據(jù)捕獲),熟練完成數(shù)據(jù)格式標(biāo)準(zhǔn)化(如文本JSONL轉(zhuǎn)換、圖像分辨率統(tǒng)一、音頻采樣率校準(zhǔn))與跨模態(tài)數(shù)據(jù)關(guān)聯(lián)(如文本-圖像語(yǔ)義匹配、音頻-字幕時(shí)間軸對(duì)齊),能夠解決過(guò)跨模態(tài)數(shù)據(jù)格式?jīng)_突、大文件解析失敗等疑難問(wèn)題,能輸出標(biāo)準(zhǔn)化的多模態(tài)數(shù)據(jù)處理流程文檔;
4、數(shù)據(jù)質(zhì)量管控技能
優(yōu)秀:精通多模態(tài)數(shù)據(jù)質(zhì)量評(píng)估體系設(shè)計(jì),能針對(duì)文本(如語(yǔ)義完整性、語(yǔ)法準(zhǔn)確性)、圖像(如清晰度、色彩真實(shí)性)、音頻(如信噪比、無(wú)雜音時(shí)長(zhǎng))等不同模態(tài)制定差異化質(zhì)量指標(biāo),開(kāi)發(fā)自動(dòng)化質(zhì)量檢測(cè)工具(如基于NLP的文本質(zhì)量評(píng)分模型、基于CV的圖像瑕疵識(shí)別腳本),能建立質(zhì)量監(jiān)控閉環(huán)(從數(shù)據(jù)采集到輸出的全鏈路質(zhì)量跟蹤),可解決復(fù)雜質(zhì)量問(wèn)題(如跨模態(tài)數(shù)據(jù)語(yǔ)義不一致、長(zhǎng)尾數(shù)據(jù)質(zhì)量失衡),輸出質(zhì)量管控報(bào)告并指導(dǎo)團(tuán)隊(duì)優(yōu)化數(shù)據(jù)質(zhì)量;
5、多模態(tài)數(shù)據(jù)治理工具搭建技能
精通多模態(tài)數(shù)據(jù)治理全鏈路工具與技術(shù),熟練使用分布式數(shù)據(jù)處理框架(Spark、Flink)、多模態(tài)數(shù)據(jù)管理平臺(tái)(如Hudi、Iceberg)、AI輔助治理工具(如基于LLM的文本分類模型、基于CV的圖像標(biāo)注工具)等;
6、多模態(tài)數(shù)據(jù)業(yè)務(wù)適配能力精通多模態(tài)數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的適配邏輯,能深入理解不同業(yè)務(wù)(如多模態(tài)生成、跨模態(tài)檢索、智能交互)對(duì)數(shù)據(jù)的差異化需求,設(shè)計(jì)針對(duì)性的數(shù)據(jù)治理方案(如為生成式AI項(xiàng)目?jī)?yōu)化文本-圖像配對(duì)數(shù)據(jù)、為檢索項(xiàng)目提升跨模態(tài)數(shù)據(jù)索引效率);具備復(fù)雜業(yè)務(wù)場(chǎng)景數(shù)據(jù)治理經(jīng)驗(yàn);