崗位職責:
1. 負責爬蟲項目的需求分析與方案設計,針對各類目標網(wǎng)站(如公開數(shù)據(jù)平臺、行業(yè)資訊站點等)制定高效、合規(guī)的爬取策略
2. 獨立完成爬蟲程序的開發(fā)、調(diào)試與優(yōu)化,熟練運用requests、Scrapy、BeautifulSoup、Selenium等工具,解決反爬機制(如IP封鎖、驗證碼、動態(tài)加載)問題
3. 負責爬取數(shù)據(jù)的清洗、解析、存儲(如MySQL、MongoDB)及質(zhì)量校驗,確保數(shù)據(jù)的準確性、完整性和時效性
4. 維護現(xiàn)有爬蟲系統(tǒng)的穩(wěn)定運行,監(jiān)控數(shù)據(jù)抓取狀態(tài),及時處理異常情況(如網(wǎng)站結(jié)構(gòu)變更、爬取效率下降)并迭代優(yōu)化
5. 與數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等協(xié)作,根據(jù)業(yè)務需求輸出標準化數(shù)據(jù)成果,支撐業(yè)務決策與產(chǎn)品迭代。
崗位要求:
1. 本科及以上學歷,計算機、軟件工程、數(shù)據(jù)科學等相關專業(yè)優(yōu)先,3-5年Python爬蟲開發(fā)經(jīng)驗,有大規(guī)模分布式爬蟲、高并發(fā)數(shù)據(jù)抓取項目經(jīng)驗者優(yōu)先
2. 精通Python語言基礎,熟練掌握爬蟲核心庫(requests、Scrapy、lxml、PyQuery)及異步爬蟲技術(aiohttp、asyncio)
3. 熟悉常見反爬手段(UA偽裝、Cookie池、IP代理池、滑塊驗證識別),能獨立設計應對方案
4. 掌握HTML/CSS/JavaScript解析,能處理動態(tài)渲染頁面(如Selenium、Playwright、Pyppeteer)
5. 熟練使用至少一種數(shù)據(jù)庫(MySQL/MongoDB/Redis),具備數(shù)據(jù)清洗、格式轉(zhuǎn)換及批量處理能力