o 本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)(211/985優(yōu)先) o 2年以上數(shù)據(jù)采集工作經(jīng)驗(yàn) ? 核心技能 o 精通 JavaScript 逆向工程 o 有主流站點(diǎn) Web 端大規(guī)模數(shù)據(jù)采集經(jīng)驗(yàn) o 具備多類型驗(yàn)證碼處理能力:包括滑塊、點(diǎn)選、Google reCAPTCHA、 旋轉(zhuǎn)驗(yàn)證碼等 o 熟悉 APP 脫殼、逆向、反編譯及自動(dòng)化相關(guān)技術(shù) o 具備 AST 反混淆 JavaScript 代碼及 JSVMP 算法還原能力 ? 附加技能(優(yōu)先考慮):具有風(fēng)控應(yīng)對經(jīng)驗(yàn)(如 Akamai 并發(fā)、Cloudflare 等 反爬蟲策略處理經(jīng)驗(yàn)) 3 崗位描述 3.1 負(fù)責(zé)大模型相關(guān)數(shù)據(jù)采集,包括不限于海內(nèi)外文本,圖片,音視頻數(shù)據(jù); 3.2 負(fù)責(zé)對目標(biāo)網(wǎng)站或 APP 進(jìn)行反爬突破、協(xié)議破解和提取關(guān)鍵數(shù)據(jù); 3.3 負(fù)責(zé)反爬蟲策略研究,代理、驗(yàn)證碼識(shí)別等采集支撐服務(wù)建設(shè); 3.4 參與大規(guī)模數(shù)據(jù)處理流程的設(shè)計(jì)與開發(fā),包括但不限于數(shù)據(jù)采集、清洗、轉(zhuǎn) 換、存儲(chǔ)等過程。 工作內(nèi)容: 協(xié)助開展各類數(shù)據(jù)采集業(yè)務(wù)(包括但不限于預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采 集、文件文檔下載等),針對多樣化的需求種類,特別是定向采集、高定數(shù) 據(jù)字段以及目標(biāo)站點(diǎn)反爬嚴(yán)重等情況,提供定制化解決方案。具體包含但不 限于以下內(nèi)容: 1. 大模型相關(guān)數(shù)據(jù)采集 o 海內(nèi)外文本、圖片、音視頻等數(shù)據(jù)采集 o 保證數(shù)據(jù)多樣性及高質(zhì)量 2. 反爬蟲策略研究與實(shí)施 o 深度分析目標(biāo)網(wǎng)站或 APP o 突破反爬措施(協(xié)議破解、代理使用、驗(yàn)證碼識(shí)別等) o 提供反爬支撐服務(wù)建設(shè) 3. 大規(guī)模數(shù)據(jù)處理流程設(shè)計(jì)與開發(fā) o 數(shù)據(jù)采集、清洗、轉(zhuǎn)換、存儲(chǔ)的全流程實(shí)現(xiàn) o 確保數(shù)據(jù)準(zhǔn)確性與可用