職位描述:
設(shè)計(jì)和維護(hù)分布式爬蟲系統(tǒng),負(fù)責(zé)公開(kāi)數(shù)據(jù)的穩(wěn)定采集;
負(fù)責(zé)爬取數(shù)據(jù)的解析、清洗與結(jié)構(gòu)化存儲(chǔ),保證數(shù)據(jù)質(zhì)量;
持續(xù)優(yōu)化爬蟲效率,監(jiān)控爬蟲狀態(tài),及時(shí)修復(fù)失效規(guī)則。
任職要求:
本科及以上學(xué)歷,熟悉Python語(yǔ)言;
精通HTTP協(xié)議,熟練使用Chrome開(kāi)發(fā)者工具進(jìn)行抓包分析;
熟悉常見(jiàn)數(shù)據(jù)庫(kù)(MySQL、Redis、MongoDB)的操作;
具備良好的法律意識(shí),只采集合規(guī)授權(quán)數(shù)據(jù)。