崗位職責(zé):
1. 負(fù)責(zé)互聯(lián)網(wǎng)數(shù)據(jù)的定向抓取、清洗與結(jié)構(gòu)化;
2. 設(shè)計(jì)和實(shí)現(xiàn)數(shù)據(jù)清洗流程,協(xié)助產(chǎn)品及業(yè)務(wù)完成數(shù)據(jù)融合等數(shù)據(jù)集成工作;
2. 搭建高效穩(wěn)定的數(shù)據(jù)采集系統(tǒng)與調(diào)度框架;
3. 對反爬機(jī)制進(jìn)行識(shí)別、規(guī)避及應(yīng)對;
4. 定期維護(hù)爬蟲策略,確保數(shù)據(jù)持續(xù)可用;
崗位要求:
? 精通 Python、Java;
? 精通 SQL 、Scala;
? 熟悉 常用 ETL 工具、Spark、Flink
? 熟悉網(wǎng)頁結(jié)構(gòu)(HTML/DOM/XPath/Regex);
? 熟悉代理IP、Cookies管理、Header偽裝、驗(yàn)證碼識(shí)別等反爬機(jī)制;
? 具備良好的代碼結(jié)構(gòu)意識(shí)和日志監(jiān)控能力;
? 有大型網(wǎng)站(如港交所、雪球、EDGAR、天眼查等)實(shí)戰(zhàn)抓取經(jīng)驗(yàn)優(yōu)先;
? 具備 異步爬蟲 / 多線程 / 分布式爬蟲開發(fā)經(jīng)驗(yàn)者優(yōu)先;
? 熟悉 MySQL/MongoDB/Elasticsearch 等任一存儲(chǔ)技術(shù)。
特殊:
要求3年以上采集/清洗工作實(shí)際經(jīng)驗(yàn)。
要求工作上細(xì)致,有自主分析問題,解決問題的能力