崗位職責(zé):
1. 文本數(shù)據(jù)處理: 參與中文文本數(shù)據(jù)的清洗、加工和標(biāo)準(zhǔn)化工作,包括但不限于分詞、拼音注音、實(shí)體識(shí)別、錯(cuò)別字校正等。
2. 數(shù)據(jù)分析: 通過對(duì)用戶行為日志等海量數(shù)據(jù)的分析,挖掘數(shù)據(jù)價(jià)值,為產(chǎn)品優(yōu)化和業(yè)務(wù)增長提供數(shù)據(jù)支持。
3. 數(shù)據(jù)構(gòu)建: 與算法工程師緊密協(xié)作,根據(jù)模型需求,構(gòu)建和處理高質(zhì)量的訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集。
任職要求:
1. 經(jīng)驗(yàn)背景: 具備2年及以上數(shù)據(jù)開發(fā)或數(shù)據(jù)處理相關(guān)工作經(jīng)驗(yàn),計(jì)算機(jī)、統(tǒng)計(jì)學(xué)或相關(guān)專業(yè)本科及以上學(xué)歷。
2. 技術(shù)能力:
Python: 精通Python編程,熟練掌握多線程/多進(jìn)程編程,能夠開發(fā)高效的數(shù)據(jù)處理腳本和應(yīng)用。
SQL: 精通SQL,具備復(fù)雜查詢、數(shù)據(jù)轉(zhuǎn)換和性能優(yōu)化的能力。
大數(shù)據(jù)框架: 擁有Spark等分布式計(jì)算框架的實(shí)際項(xiàng)目經(jīng)驗(yàn),能夠進(jìn)行并行數(shù)據(jù)處理。
3. 文本處理: 熟悉常見的中文文本處理技術(shù)(如分詞、拼音注音、錯(cuò)別字校正等),并有相關(guān)項(xiàng)目實(shí)踐經(jīng)驗(yàn)。
4. 數(shù)據(jù)分析與理解: 具備優(yōu)秀的用戶日志分析能力,能夠從海量數(shù)據(jù)中發(fā)現(xiàn)問題和價(jià)值;深刻理解數(shù)據(jù)質(zhì)量評(píng)估的目標(biāo)和重要性。
加分項(xiàng):
1. AI數(shù)據(jù)經(jīng)驗(yàn): 有為AI模型(尤其是NLP、大語言模型LLM相關(guān)領(lǐng)域)構(gòu)建訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)者優(yōu)先。
2. 工程實(shí)踐: 對(duì)數(shù)據(jù)敏感,追求卓越,有良好的代碼規(guī)范和工程實(shí)踐習(xí)慣。
3. 工具與平臺(tái): 熟悉如Hadoop、Hive、Kafka等其他大數(shù)據(jù)生態(tài)組件者優(yōu)先。