崗位職責(zé)
1.整理和預(yù)處理多模態(tài)語(yǔ)料庫(kù)和結(jié)構(gòu)化知識(shí)源。
2.構(gòu)建、擴(kuò)展和維護(hù)領(lǐng)域本體 / 知識(shí)圖譜庫(kù)。
3.確保數(shù)據(jù)質(zhì)量、版本控制和沿襲追蹤。
4.搭建強(qiáng)大的 ETL 管道,確保原始源(如網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫(kù)、PDF)被系統(tǒng)地?cái)z取、清理、規(guī)范化和格式化,以用于神經(jīng)訓(xùn)練和符號(hào)規(guī)則編碼。
5.將異構(gòu)數(shù)據(jù)集(非結(jié)構(gòu)化文本語(yǔ)料庫(kù)、結(jié)構(gòu)化事實(shí)、用戶日志)集中到一個(gè)集成存儲(chǔ)庫(kù)中,支持對(duì)訓(xùn)練數(shù)據(jù)和符號(hào)事實(shí)的高效查詢、切片和歷史跟蹤,啟用數(shù)據(jù)集的版本控制。
6.進(jìn)行知識(shí)圖譜構(gòu)建工作,將領(lǐng)域語(yǔ)義(實(shí)體、關(guān)系、本體)編碼為圖形形式,促進(jìn)文本衍生概念與結(jié)構(gòu)化符號(hào)的鏈接,通過(guò)在添加或更新事實(shí)時(shí)應(yīng)用模式驗(yàn)證和推理檢查,確保知識(shí)庫(kù)的一致性和連貫性。
任職要求
1.專業(yè)背景:計(jì)算機(jī)、數(shù)據(jù)科學(xué)、軟件工程等相關(guān)專業(yè)。
2.學(xué)歷要求:碩士學(xué)歷及以上;本科學(xué)歷如有優(yōu)秀項(xiàng)目經(jīng)驗(yàn)也可接受。
3.工作經(jīng)驗(yàn):至少 2 年相關(guān)項(xiàng)目經(jīng)驗(yàn),有重要項(xiàng)目突破經(jīng)歷可放寬至 1 年。
4.技能要求:具備 ETL(提取、轉(zhuǎn)換、加載)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)圖譜構(gòu)建經(jīng)驗(yàn),掌握 SQL/NoSQL、Apache Spark、Neo4j 或類似的圖形數(shù)據(jù)庫(kù)、數(shù)據(jù)清理、模式設(shè)計(jì)。
工作地點(diǎn):天津、杭州、珠海