崗位職責(zé):
1、負(fù)責(zé)公司數(shù)據(jù)源抓取需求,滿(mǎn)足公司對(duì)多源數(shù)據(jù)采集要求;
2、負(fù)責(zé)開(kāi)發(fā)分布式爬蟲(chóng)框架,管理分布式爬蟲(chóng)服務(wù)器,開(kāi)發(fā)任務(wù)調(diào)度引擎;
3、負(fù)責(zé)爬蟲(chóng)核心算法的策略?xún)?yōu)化研究,提升爬蟲(chóng)抓取效率和質(zhì)量,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量;
4、設(shè)計(jì)爬蟲(chóng)策略和防屏蔽規(guī)則,解決封賬號(hào)、封IP、驗(yàn)證碼、JS加密等難點(diǎn)攻克;
5、利用主流的大數(shù)據(jù)相關(guān)技術(shù),對(duì)抓取后的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行清洗、存儲(chǔ)等;并持續(xù)優(yōu)化平臺(tái),以便滿(mǎn)足各種爬取業(yè)務(wù)需求;
6、負(fù)責(zé)RPA相關(guān)開(kāi)發(fā)工作,提升業(yè)務(wù)能效;
7、負(fù)責(zé)部分AI(RAG)相關(guān)開(kāi)發(fā)工作。
崗位要求:
1、有扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法功底;
2、工作認(rèn)真細(xì)致踏實(shí),有較強(qiáng)的學(xué)習(xí)能力,熟悉常用爬蟲(chóng)工具;
3、熟悉linux開(kāi)發(fā)環(huán)境,熟悉python等,熟悉其他開(kāi)發(fā)語(yǔ)言?xún)?yōu)先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系統(tǒng)的開(kāi)發(fā)、架構(gòu)經(jīng)驗(yàn),至少熟悉并使用過(guò)一種主流爬蟲(chóng)架構(gòu),如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA軟件(弘璣、影刀、UiBot等)優(yōu)先;
7、熟悉RAG流程優(yōu)先,熟悉AI模型、RAG框架等優(yōu)先;
8、熟悉反爬策略的應(yīng)對(duì),能夠解決封賬號(hào)、封IP、驗(yàn)證碼、JS加密等問(wèn)題;
9、熟悉Mysql、Redis、MongoDB等數(shù)據(jù)庫(kù),有過(guò)數(shù)據(jù)庫(kù)調(diào)優(yōu)和海量數(shù)據(jù)存儲(chǔ)經(jīng)驗(yàn)者優(yōu)先。