国产精品又长又粗又爽又黄的毛片, 国产AV无码专区亚洲AV毛片搜, 丰满人妻被猛烈进入中文字幕四川, 国产精品一区二区三区国产女人喷,亚洲国产欧美日韩图片在线人,潘娇娇337p人艺体艺术,成人免费无码大片a毛片古装,一本到高清视频免费,人妻在线视频免费看

更新于 8月28日

爬蟲與數據工程師

1.2-1.8萬
  • 成都雙流區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招1人

職位描述

PythonScrapyNumPyPandas數據采集數據清洗數據挖掘
職位概要:
負責設計并實現爬蟲框架、規(guī)范及監(jiān)控體系,對目標網站內容及附件數據進行采集。對采集數據和文檔進行大模型提取的前處理以及后處理,確保數據入庫的質量和效率。
崗位職責:

1.數據采集系統開發(fā)與維護:

(1)開發(fā)維護目標網站數據采集程序和框架(如強化版Scrapy),解決登錄驗證、令牌加密、IP/頻率限制、驗證碼等復雜反爬挑戰(zhàn);

(2)建設和維護統一采集任務管理監(jiān)控平臺(調度、監(jiān)控、報警、日志、自動補漏);


2.數據預處理與后處理:

(1)對原始數據和文檔進行預處理,如自動化分類、格式轉換、糾錯等,滿足大模型輸入要求;

(2)對大模型輸出數據使用算法或模型進行后處理,包括自動化校驗與規(guī)范化;


3.數據入庫和集成協作:
(1)與后端團隊協作,設計和實現數據入庫、任務調度和推送
任職資格:
1、本科以上學歷,計算機、數學、數據科學、統計學相關專業(yè)優(yōu)先。
2、5年以上工作經驗,3年以上Python開發(fā)和數據處理經驗,擅長數據采集(爬蟲),熟悉大模型
技術核心:
1、精通Python 及生態(tài),熟悉 pandas, numpy 等數據處理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基礎設計與SQL查詢
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、(加分項)了解 rabbitmq, redis, celery 等分布式任務調度框架
7、(加分項)了解 python async 或多進程多線程高性能開發(fā)

工作地點

雙流區(qū)超圖成都大廈1棟

職位發(fā)布者

蘭女士/人資經理

三日內活躍
立即溝通
公司Logo四川業(yè)億辰科技有限公司
四川業(yè)億辰科技有限公司專注于業(yè)務咨詢、ERP實施(SAP)、電子商務、移動政務、移動電商的專業(yè)軟件服務提供商。公司致力于軟件系統的開發(fā)和應用,將高端咨詢和互聯網+大數據進行結合,以優(yōu)秀的創(chuàng)新思維和領先的技術能力為客戶提供端到端的高端整體解決方案,幫助傳統企業(yè)向互聯網領域轉型升級,實現傳統業(yè)務向互聯網互聯網的快速接入,互通,打造一體化的全渠道營銷供應鏈體系。公司產品兼顧傳統企業(yè)信息化市場和互聯網技術市場,主要產品方向為兩方面,一方面,通過與企業(yè)信息化服務商合作,提供專業(yè)的電子商務、供應鏈、大數據等技術產品,補充企業(yè)信息化在互聯網方面的弱項。另外一方面,以互聯網為平臺,打造輕量級的供應鏈+互聯網的產品,實現網絡營銷自主推廣。公司集結了一批年輕的、有學識的、具有實干精神的三高(高素質、高標準、高學歷)IT人才,以及一批業(yè)務知識豐富、項目管理能力強、市場反應速度快的行業(yè)技術專家、項目管理干部及高層次商務人才。核心團隊成員經驗豐富,大都擁有10年以上從事企業(yè)信息化咨詢和軟件行業(yè)的工作經歷,同時擁有國際、國內知名公司工作背景。
公司主頁