崗位職責:
1、負責分布式網(wǎng)絡爬蟲系統(tǒng)設(shè)計,搭建系統(tǒng)框架,開發(fā)高可用、高并發(fā)的分布式網(wǎng)絡爬蟲系統(tǒng)。
2、設(shè)計和優(yōu)化數(shù)據(jù)抓取策略,專注研究與破解各類復雜反爬機制(包括JS逆向、加密參數(shù)、高級驗證碼、瀏覽器指紋檢測等),提升數(shù)據(jù)抓取的效率、質(zhì)量與穩(wěn)定性。
3、理解數(shù)據(jù)需求,快速響應和解決數(shù)據(jù)采集過程中的各類技術(shù)難題與反爬對抗問題。
4、建立和維護數(shù)據(jù)抓取任務的監(jiān)控與質(zhì)量保障體系,確保數(shù)據(jù)抓取任務的穩(wěn)定運行和數(shù)據(jù)的及時交付。
任職要求:
1、計算機相關(guān)專業(yè)本科及以上學歷,有3年以上爬蟲開發(fā)經(jīng)驗,具備復雜反爬破解實戰(zhàn)經(jīng)驗。
2、精通Python語言,至少熟練掌握Scrapy等主流爬蟲框架中的一種,并能進行定制化開發(fā)。
3、熟悉常見反爬機制,具備強大的JS逆向能力,能破解加密參數(shù)、動態(tài)混淆JS;精通各類驗證碼識別技術(shù),并有成功破解高級驗證碼(如滑塊、點選)的項目經(jīng)驗。
4、有處理大規(guī)模數(shù)據(jù)的經(jīng)驗,對分布式爬蟲系統(tǒng)有實際的架構(gòu)和開發(fā)經(jīng)驗者優(yōu)先。
5、良好的問題解決能力,善于溝通和團隊合作,對爬蟲與反爬蟲新技術(shù)有強烈好奇心和學習能力。