崗位職責(zé):
1.負(fù)責(zé)采集系統(tǒng)的架構(gòu)設(shè)計(jì),系統(tǒng)搭建
2.負(fù)責(zé)各類數(shù)據(jù)源(API、數(shù)據(jù)庫、網(wǎng)頁)的數(shù)據(jù)采集、清洗、轉(zhuǎn)換與入庫;
3.搭建與維護(hù)穩(wěn)定高效的數(shù)據(jù)采集系統(tǒng),確保數(shù)據(jù)采集的準(zhǔn)確性、完整性與時(shí)效性;
4.分析數(shù)據(jù)源結(jié)構(gòu)與變化,制定字段映射、清洗規(guī)則和更新策略;
5.針對(duì)目標(biāo)站點(diǎn)的反爬策略設(shè)計(jì)并實(shí)現(xiàn)有效的繞過方案;
6. 編寫數(shù)據(jù)采集文檔與接口說明,支持?jǐn)?shù)據(jù)管理與審計(jì)合規(guī)需求。
7.及時(shí)解決爬取過程中出現(xiàn)的問題并不斷優(yōu)化程序
任職資格:
1.計(jì)算機(jī)相關(guān)專業(yè)畢業(yè),3年以上數(shù)據(jù)開發(fā)經(jīng)驗(yàn);
2.熟練掌握 Python,具備豐富的 HTTP 請(qǐng)求模擬、抓包調(diào)試、異步編程、數(shù)據(jù)解析能力;
3.熟悉常見數(shù)據(jù)采集方式(如 RESTful API 調(diào)用、網(wǎng)頁爬蟲、日志采集)與數(shù)據(jù)清洗與轉(zhuǎn)換技術(shù);
4.熟悉數(shù)據(jù)采集相關(guān)框架或工具(如 Scrapy、Logstash、NiFi、Flume、Kafka、Flink);
5.熟悉 JavaScript 語言,具備 JS 加解密逆向能力,可獨(dú)立實(shí)現(xiàn)復(fù)雜參數(shù)構(gòu)造、簽名還原、AES/MD5/RSA算法實(shí)現(xiàn)等;
6. 熟悉常見反爬機(jī)制及繞過方式,如驗(yàn)證碼識(shí)別(圖形/滑動(dòng)/點(diǎn)選)、UA/IP切換、請(qǐng)求混淆、Headless Browser 等;
7.具備小程序抓包與接口還原能力,了解小程序數(shù)據(jù)通信機(jī)制;
8.有 App 采集經(jīng)驗(yàn),熟悉抓包工具(如 Charles、Fiddler、Wireshark、mitmproxy)、Hook 工具(如Frida、Xposed);
9.了解數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全與合規(guī)相關(guān)知識(shí)。