爬蟲(chóng)開(kāi)發(fā)工程師
工作地點(diǎn)
元中心
任職要求
1. 負(fù)責(zé)公司業(yè)務(wù)相關(guān)數(shù)據(jù)爬取任務(wù)的需求分析、設(shè)計(jì)、開(kāi)發(fā)及維護(hù);
2. 開(kāi)發(fā)高效穩(wěn)定的網(wǎng)頁(yè)爬蟲(chóng),解決反爬機(jī)制,確保數(shù)據(jù)抓取的完整性及實(shí)時(shí)性;
3. 提取、清洗和處理抓取到的網(wǎng)頁(yè)數(shù)據(jù),將其存儲(chǔ)至數(shù)據(jù)庫(kù);
4. 定期升級(jí)優(yōu)化爬蟲(chóng)程序,提升抓取效率,擴(kuò)展抓取種類;
5. 確保數(shù)據(jù)采集的合法性和合規(guī)性,與法律法規(guī)保持一致;
6. 配合數(shù)據(jù)清洗和分析團(tuán)隊(duì),提供抓取的原始數(shù)據(jù)支持。
崗位要求:
1. 本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)優(yōu)先考慮;
2. 熟悉 Python 編程語(yǔ)言,精通爬蟲(chóng)框架;
3. 熟悉瀏覽器模擬、動(dòng)態(tài)網(wǎng)頁(yè)抓取相關(guān)技術(shù),如 Selenium、Pyppeteer 等;
4. 對(duì)反爬機(jī)制有較為深入的理解,熟悉常見(jiàn)的反爬處理手段(如驗(yàn)證碼識(shí)別、代理池、多線程抓取等);
5. 熟練使用 MySQL 或 NoSQL 數(shù)據(jù)庫(kù)(如 MongoDB、Redis 等),能夠獨(dú)立完成數(shù)據(jù)的存儲(chǔ)和管理;
6. 對(duì)數(shù)據(jù)清洗及結(jié)構(gòu)化處理有一定的基礎(chǔ);
7. 有較強(qiáng)的編碼能力、問(wèn)題解決能力,以及良好的代碼規(guī)范意識(shí);
8. 有完整的爬蟲(chóng)項(xiàng)目經(jīng)驗(yàn)或協(xié)作案例者優(yōu)先。
加分項(xiàng):
1. 有分布式爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;
2. 對(duì) NLP、數(shù)據(jù)挖掘感興趣或有經(jīng)驗(yàn)者優(yōu)先;
3. 了解或熟悉云服務(wù)器相關(guān)部署技巧者優(yōu)先