崗位職責(zé):
1、負(fù)責(zé)外部數(shù)據(jù)采集需求,完成采集站點(diǎn)分析,數(shù)據(jù)采集,數(shù)據(jù)結(jié)構(gòu)化,數(shù)據(jù)質(zhì)量保障以及外部數(shù)據(jù)維護(hù)工作。數(shù)據(jù)從接入到最后業(yè)務(wù)使用都需要大量人力投入開(kāi)發(fā)運(yùn)維。
2、負(fù)責(zé)databee采集工具日常技術(shù)支持,問(wèn)題排查、答疑,使用文檔便編寫(xiě)及維護(hù)。
3、外部數(shù)據(jù)去重整合、異常數(shù)據(jù)處理/數(shù)據(jù)評(píng)測(cè)/數(shù)據(jù)訂正、NER/NED數(shù)據(jù)預(yù)處理等
崗位要求:
1、熟悉java/python有大于2年的爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn)
2、熟悉webmagic等開(kāi)源爬蟲(chóng)框架 或 熟悉常用爬蟲(chóng)框架平臺(tái)
3、能夠熟練的開(kāi)發(fā)爬取日常網(wǎng)頁(yè)/APP內(nèi)容