職位概要:
負責設計并實現爬蟲框架、規(guī)范及監(jiān)控體系,對目標網站內容及附件數據進行采集。對采集數據和文檔進行大模型提取的前處理以及后處理,確保數據入庫的質量和效率。
崗位職責:
1.數據采集系統開發(fā)與維護:
(1)開發(fā)維護目標網站數據采集程序和框架(如強化版Scrapy),解決登錄驗證、令牌加密、IP/頻率限制、驗證碼等復雜反爬挑戰(zhàn);
(2)建設和維護統一采集任務管理監(jiān)控平臺(調度、監(jiān)控、報警、日志、自動補漏);
2.數據預處理與后處理:
(1)對原始數據和文檔進行預處理,如自動化分類、格式轉換、糾錯等,滿足大模型輸入要求;
(2)對大模型輸出數據使用算法或模型進行后處理,包括自動化校驗與規(guī)范化;
3.數據入庫和集成協作:
(1)與后端團隊協作,設計和實現數據入庫、任務調度和推送
任職資格:
1、本科以上學歷,計算機、數學、數據科學、統計學相關專業(yè)優(yōu)先。
2、5年以上工作經驗,3年以上Python開發(fā)和數據處理經驗,擅長數據采集(爬蟲),熟悉大模型
技術核心:
1、精通Python 及生態(tài),熟悉 pandas, numpy 等數據處理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基礎設計與SQL查詢
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、(加分項)了解 rabbitmq, redis, celery 等分布式任務調度框架
7、(加分項)了解 python async 或多進程多線程高性能開發(fā)