*信華信本社職位,研發(fā)崗位,非外包外派
崗位職責:
1. 負責目標網(wǎng)站的數(shù)據(jù)采集系統(tǒng)設計與開發(fā);
2. 突破反爬機制,保障數(shù)據(jù)穩(wěn)定獲??;
3. 清洗、存儲爬取數(shù)據(jù)(結(jié)構(gòu)化存儲至數(shù)據(jù)庫/文件);
4. 優(yōu)化爬蟲效率與資源占用,監(jiān)控系統(tǒng)運行狀態(tài);
5. Python應用開發(fā)。
技能要求:
必需技能:
1. 精通 Python 及爬蟲生態(tài)庫;
2. 深入理解 HTTP協(xié)議、反爬策略;
3. 熟練使用 XPath/CSS Selector 解析網(wǎng)頁;
4. 掌握數(shù)據(jù)存儲方案(關系型數(shù)據(jù)庫、文件系統(tǒng)等);
5. 具備反爬實戰(zhàn)經(jīng)驗。
加分項:
1. 熟悉分布式爬蟲或異步框架;
2. 有企業(yè)信息、商業(yè)數(shù)據(jù)爬取經(jīng)驗;
3. 日語N3或者英語六級以上能力者優(yōu)先考慮。
軟性要求:
1. 邏輯清晰,能獨立分析網(wǎng)站結(jié)構(gòu)與數(shù)據(jù)鏈路;
2. 注重代碼健壯性,遵守數(shù)據(jù)合規(guī)與法律邊界。