兼職崗位,任務(wù)包,地點(diǎn)鄭州,需現(xiàn)場(chǎng)測(cè)試,介意勿投?。?!
1.需求數(shù)據(jù):工程項(xiàng)目相關(guān)的招中標(biāo)等公開數(shù)據(jù)
2.需求字段:公告標(biāo)題、發(fā)布時(shí)間、詳情鏈接、公告正文、相關(guān)附件、網(wǎng)站所屬地址信息
3.開發(fā)要求:根據(jù)提供模板,基于python使用scrapy框架開發(fā)
4.驗(yàn)收標(biāo)準(zhǔn):spider代碼基于模板可遷移運(yùn)行,使用項(xiàng)目代碼可正常采集,采集到的數(shù)據(jù)需求字段完整、無誤,按要求采集周期內(nèi)的全部數(shù)據(jù),過濾非需求公告,網(wǎng)站不改版的情況下可長(zhǎng)期使用;
5.交付要求:交付完整代碼,數(shù)據(jù)我們自己運(yùn)行采集
6.需求數(shù)量:50個(gè)目標(biāo)網(wǎng)站
任職要求:
1、計(jì)算機(jī)相關(guān)專業(yè),有2年以上爬蟲開發(fā)經(jīng)驗(yàn)。
2、精通Python語言,至少熟練掌握主流爬蟲框架中的一種;
3、熟悉常見反爬機(jī)制,驗(yàn)證碼識(shí)別,IP代理池、應(yīng)用Ip池、headers認(rèn)證和cookie等;
4、有處理大規(guī)模數(shù)據(jù)的經(jīng)驗(yàn),對(duì)分布式爬蟲有實(shí)際操作經(jīng)驗(yàn)者優(yōu)先。