崗位職責:
- 數(shù)據(jù)爬?。?編寫高效的Python爬蟲腳本,從指定的公開網站、API接口、氣象數(shù)據(jù)平臺、農業(yè)政務網站等渠道,自動化抓取多源異構數(shù)據(jù)(如氣象數(shù)據(jù)、土壤墑情、遙感影像、作物價格、病蟲害情報、學術論文等);
- 數(shù)據(jù)清洗與處理: 對爬取到的原始數(shù)據(jù)進行清洗、去重、格式化、轉換和集成,確保數(shù)據(jù)的準確性和一致性,使其滿足作物模型研究的輸入要求;
- 反爬策略應對: 研究并實施合理的策略以應對常見的反爬蟲機制(如IP限制、驗證碼、動態(tài)加載等),確保數(shù)據(jù)采集任務的穩(wěn)定運行;
- 文檔與協(xié)作: 撰寫清晰的技術文檔,記錄爬蟲設計思路、數(shù)據(jù)源結構和數(shù)據(jù)處理流程,并與研究員保持密切溝通,理解數(shù)據(jù)需求;
- 完成領導交辦的其他工作。
任職資格:
1. 2026/2027屆在校本科生或研究生,計算機科學、軟件工程、數(shù)據(jù)科學、農業(yè)信息技術或相關專業(yè);
2. 熟練掌握 Python 編程語言,有良好的編碼習慣;
3. 熟悉常用的網絡爬蟲框架,如 Scrapy、Requests、BeautifulSoup、lxml 等;
4. 了解網頁前端基礎(HTML, CSS, JavaScript),能分析網頁結構并提取數(shù)據(jù);
5. 有處理 Ajax動態(tài)加載、Selenium 或 Playwright 模擬瀏覽器操作的經驗;
6. 接觸過數(shù)據(jù)庫操作(SQL或NoSQL),了解正則表達式、Pandas 等數(shù)據(jù)處理庫,對多線程/異步IO爬蟲有一定了解,有實際爬蟲項目經驗(課程設計、個人項目均可),對農業(yè)、氣象、地理或環(huán)境科學有濃厚興趣;
7. 具備出色的學習能力和解決問題的能力,面對技術挑戰(zhàn)樂于鉆研,做事細心嚴謹,對數(shù)據(jù)質量有要求,良好的溝通能力和團隊協(xié)作精神;
8. 服從管理。