爬蟲(chóng)工程師/高級(jí)爬蟲(chóng)工程師
學(xué)歷要求
?計(jì)算機(jī)、軟件工程、信息科學(xué)或相關(guān)專(zhuān)業(yè)本科及以上學(xué)歷
工作經(jīng)驗(yàn)要求
?3年以上Web爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn)
?至少主導(dǎo)或深度參與過(guò) 3個(gè)以上中大型爬取項(xiàng)目(如電商、新聞、社交平臺(tái)、搜索引擎數(shù)據(jù)源等)
?有從零搭建分布式爬蟲(chóng)系統(tǒng)經(jīng)驗(yàn)者優(yōu)先
崗位職責(zé)
1. 負(fù)責(zé)大規(guī)模互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)的采集、解析、清洗與結(jié)構(gòu)化存儲(chǔ);
2. 設(shè)計(jì)并實(shí)現(xiàn)高可用、高并發(fā)、抗反爬的分布式爬蟲(chóng)系統(tǒng);
3. 深度研究目標(biāo)網(wǎng)站的反爬機(jī)制(如JS加密、滑塊驗(yàn)證碼、IP封鎖、行為檢測(cè)等),并制定破解方案;
4. 維護(hù)現(xiàn)有爬蟲(chóng)集群,優(yōu)化采集效率與穩(wěn)定性;
5. 與數(shù)據(jù)工程師、算法團(tuán)隊(duì)協(xié)作,提供高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)支持;
6. 編寫(xiě)技術(shù)文檔,指導(dǎo)初級(jí)工程師,參與技術(shù)評(píng)審與架構(gòu)設(shè)計(jì);
7. 關(guān)注法律法規(guī)與合規(guī)性,確保數(shù)據(jù)采集符合《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》等要求。
任職要求(核心技術(shù)點(diǎn) 必備技能:
?精通 Python,熟練使用 Scrapy、Requests、Selenium、Playwright、BeautifulSoup、lxml 等爬蟲(chóng)框架與庫(kù);
?熟悉 HTTP/HTTPS、TCP/IP、Cookie、Session、User-Agent、Referer 等協(xié)議機(jī)制;
?熟練掌握 JavaScript逆向分析,能使用 Chrome DevTools、Fiddler、Charles 進(jìn)行抓包與調(diào)試;
?熟悉常見(jiàn)反爬機(jī)制及應(yīng)對(duì)方案:
?動(dòng)態(tài)渲染頁(yè)面(SPA)采集
?驗(yàn)證碼識(shí)別(OCR、打碼平臺(tái)、模型識(shí)別)
?IP代理池建設(shè)與調(diào)度(自建/第三方)
?請(qǐng)求頻率控制、指紋偽裝、行為模擬
?熟悉 數(shù)據(jù)存儲(chǔ)與中間件:MySQL、MongoDB、Redis、Kafka、Elasticsearch;
?熟悉 分布式架構(gòu):能使用 Scrapy-Redis、Celery、Kubernetes、Docker 構(gòu)建分布式爬蟲(chóng)集群;
?具備基礎(chǔ)的 Linux 操作能力,能編寫(xiě) Shell 腳本進(jìn)行自動(dòng)化部署與監(jiān)控。