崗位職責(zé)
1. 數(shù)據(jù)采集與獲?。?設(shè)計并實現(xiàn)從多源(文本、結(jié)構(gòu)化DB、API、網(wǎng)頁等)獲取知識數(shù)據(jù)的方案。
2. 數(shù)據(jù)清洗與預(yù)處理: 對原始數(shù)據(jù)進行深度清洗、去噪、格式化、標(biāo)準(zhǔn)化,處理多源異構(gòu)數(shù)據(jù),確保數(shù)據(jù)質(zhì)量。
3. 信息抽取與結(jié)構(gòu)化: 應(yīng)用NLP技術(shù)(實體識別、關(guān)系抽取、事件抽取等)從非結(jié)構(gòu)化/半結(jié)構(gòu)化文本中提取結(jié)構(gòu)化知識(為知識圖譜工程師提供基礎(chǔ)數(shù)據(jù))。
4. 知識向量化(Embedding)與索引: 選型、應(yīng)用和優(yōu)化Embedding模型,將文本/知識轉(zhuǎn)化為向量表示。精通主流向量數(shù)據(jù)庫(Milvus, Pinecone, Weaviate, Chroma, ES w/ vector)的選型、部署、索引構(gòu)建、優(yōu)化與維護。
5. 合成數(shù)據(jù)生成: 探索和應(yīng)用技術(shù)生成用于模型訓(xùn)練、微調(diào)或測試的合成數(shù)據(jù)。
6. 數(shù)據(jù)流水線與自動化: 構(gòu)建高效、可擴展、自動化的數(shù)據(jù)ETL/ELT流水線,支持知識庫的持續(xù)更新和質(zhì)量監(jiān)控。
7. 知識更新機制: 設(shè)計和實現(xiàn)知識庫的增量更新和版本管理機制。
8. 數(shù)據(jù)質(zhì)量與評估: 制定并實施知識數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)和流程。與算法工程師合作定義數(shù)據(jù)需求。
9. 工具建設(shè): 開發(fā)或引入易用的內(nèi)部工具支持數(shù)據(jù)清洗、處理、向量化、索引等操作。
任職要求
1. 編程與工程能力:
極其出色的數(shù)據(jù)處理能力,精通Python數(shù)據(jù)處理庫(Pandas, NumPy, Spark等)和SQL。
強大的數(shù)據(jù)管道(ETL/ELT)設(shè)計、構(gòu)建和優(yōu)化能力。
2. AI技術(shù)棧:
熟悉主流Embedding模型原理及應(yīng)用。
精通至少1-2種主流向量數(shù)據(jù)庫的核心原理、部署、API、性能調(diào)優(yōu)。
經(jīng)驗要求:
2年以上大規(guī)模數(shù)據(jù)處理、清洗、構(gòu)建知識庫/數(shù)據(jù)湖/數(shù)據(jù)倉庫的實戰(zhàn)經(jīng)驗。
有使用向量數(shù)據(jù)庫構(gòu)建和優(yōu)化檢索系統(tǒng)的項目經(jīng)驗。
有信息抽取或數(shù)據(jù)標(biāo)注項目經(jīng)驗者優(yōu)先。
3.核心技能:
大規(guī)模多源異構(gòu)數(shù)據(jù)處理與清洗。
向量化(Embedding)技術(shù)實踐。
向量數(shù)據(jù)庫的深度應(yīng)用與優(yōu)化。
數(shù)據(jù)流水線工程化與自動化。