崗位職責:
1、負責網絡資源的搜集、抽取、清洗、去重、分類及過濾,構建高質量的數據資源庫;
2、根據業(yè)務需求,設計并實現(xiàn)高效的數據采集方案,確保數據的實時性和準確性;
3、協(xié)助業(yè)務部門進行數據的更新與維護,提供數據支持及解決方案;
4、優(yōu)化采集腳本,提升數據采集效率,解決采集過程中的反爬蟲策略問題;
5、參與數據采集工具的開發(fā)以及成品數據集的制作。
任職要求:
1、統(tǒng)招本科及以上學歷,計算機、電子信息、軟件工程等相關專業(yè);
2、熟練掌握Python編程語言,具備扎實的編程基礎,熟悉正則表達式、XPATH、requests等技術;
3、熟悉Web前端技術,包括HTML、HTTP、JavaScript、JSON等,能夠處理動態(tài)網頁數據;
4、掌握常用數據庫操作,mongodb,mysql等
5、了解Linux開發(fā)環(huán)境,掌握基本shell命令,具備linux部署的能力;
6、有爬蟲類項目經驗優(yōu)先,熟悉常用的爬蟲框架(如Scrapy、自動化等);
7、具備網絡資源搜集、信息抽取、文本分類等相關經驗者優(yōu)先;
8、具備良好的溝通能力和團隊協(xié)作精神,能夠獨立解決問題并承擔工作壓力。