1.數據采集與處理:設計并實現數據采集方案,能運用爬蟲技術從公開網絡數據源(如行業(yè)網站、社交媒體平臺等)合規(guī)采集數據,同時從多種數據源(如業(yè)務系統(tǒng)、日志文件、API 接口、物聯網設備等)高效采集數據;對采集到的原始數據進行清洗、轉換、集成等處理,去除冗余、錯誤數據,將數據轉化為符合業(yè)務需求的格式,為數據分析和挖掘提供高質量的數據支持。
負責數據采集與治理相關工作,確保數據質量和準確性;
2.數據管道開發(fā)與優(yōu)化:開發(fā)、部署和維護數據 ETL(抽取、轉換、加載)管道,實現數據的自動化流轉與處理;結合 RPA 技術優(yōu)化數據管道中涉及的人工操作環(huán)節(jié),提高管道運行的自動化程度;持續(xù)監(jiān)控數據管道的運行狀態(tài),及時發(fā)現并解決數據傳輸過程中的問題,優(yōu)化數據處理效率,提升數據管道的穩(wěn)定性和可靠性。
3.數據質量管控:建立健全的數據質量管控體系,制定數據質量標準和評估指標;通過數據校驗、監(jiān)控、預警等手段,對數據質量進行全方位管理,及時發(fā)現數據質量問題并推動解決,確保數據的準確性、及時性和有效性。
任職要求:
1.本科及以上學歷,3-5年工作經驗,計算機、軟件工程、統(tǒng)計學、數學等相關專業(yè)優(yōu)先;
2.精通 Python 語言,具備扎實的編程基礎和良好的代碼規(guī)范;
3.熟練主流的關系型數據庫(如 MySQL、Oracle)、時序數據庫(如開務、Doris),能夠熟練運用數據處理工具,具備良好的數據分析能力;
4.熟悉 ETL 工具(如 DataStage、Informatica、Kettle 等)或 ETL 腳本開發(fā),了解數據抽取、轉換、加載的原理和實踐;
5.熟悉爬蟲技術,熟練使用selenium 、DrissionPage 等自動化抓取技術,具備從公開網絡數據源合規(guī)采集數據的經驗;
熟悉 RPA 技術,如 UiPath、Automation Anywhere、Blue Prism 等工具,有利用 RPA 實現數據相關流程自動化的項目經驗;