崗位職責(zé):
1. 負(fù)責(zé)核心數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì)、開發(fā)與維護(hù),確保系統(tǒng)的高性能、高可用和可擴(kuò)展性,實(shí)現(xiàn)多源數(shù)據(jù)的自動化采集。
2. 設(shè)計(jì)合理的數(shù)據(jù)結(jié)構(gòu)與索引方案,搭建數(shù)據(jù)采集、清洗、校驗(yàn)與存儲的自動化管道,為業(yè)務(wù)系統(tǒng)提供可靠的數(shù)據(jù)支撐。
3. 與產(chǎn)品、數(shù)據(jù)分析和算法團(tuán)隊(duì)協(xié)作,深刻理解業(yè)務(wù)需求,提供高質(zhì)量的數(shù)據(jù)服務(wù)與技術(shù)解決方案,并撰寫清晰的技術(shù)文檔。
4. 持續(xù)關(guān)注行業(yè)新技術(shù)與反爬趨勢,具備創(chuàng)新精神,并能熟練利用 AI 工具提升研發(fā)效率。
任職要求
1. 計(jì)算機(jī)相關(guān)專業(yè),本科及以上學(xué)歷,1年及以上爬蟲開發(fā)經(jīng)驗(yàn)。
2. 精通 Python,熟悉并發(fā)、多線程、多進(jìn)程及異步編程模型。
3. 熟悉任意一種關(guān)系型數(shù)據(jù)庫和Redis。具備時(shí)序數(shù)據(jù)庫使用經(jīng)驗(yàn)者優(yōu)先。
4. 熟悉 HTTP 協(xié)議 與網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)(HTML、CSS、JavaScript、Ajax、JSON 等),具備一定的 JavaScript 逆向 能力。
5. 能獨(dú)立分析和解決爬蟲中的技術(shù)難點(diǎn)(如驗(yàn)證碼識別、IP代理池、請求優(yōu)化、反爬繞過等),并具備實(shí)際工程經(jīng)驗(yàn)。
6. 熟練使用 BeautifulSoup、XPath 、正則等解析工具,至少掌握一種爬蟲框架(如 Scrapy)。
7. 至少精通一種瀏覽器自動化/爬蟲框架(如 Selenium、DrissionPage、Playwright、Pyppeteer),并有實(shí)戰(zhàn)經(jīng)驗(yàn)。
8. 熟悉 Linux 環(huán)境,具備 Docker 容器化 使用經(jīng)驗(yàn)。
9. 有 RPA 工具 使用經(jīng)驗(yàn)者優(yōu)先考慮。
職位福利:五險(xiǎn)一金、餐補(bǔ)、彈性工作、通訊補(bǔ)助、定期體檢、節(jié)日福利、績效獎金