崗位職責(zé):
1. 需求分析與規(guī)劃: 深刻理解VLM核心任務(wù)及其數(shù)據(jù)需求,識別當(dāng)前數(shù)據(jù)短板。
2. 數(shù)據(jù)檢索與獲?。焊咝Ю镁W(wǎng)絡(luò)資源(包括主流社交媒體平臺、專業(yè)社區(qū)、公開學(xué)術(shù)數(shù)據(jù)集庫、特定領(lǐng)域網(wǎng)站等)檢索、爬取所需的多模態(tài)原始數(shù)據(jù)。
3. 數(shù)據(jù)定制化: 根據(jù)特定項(xiàng)目方向(如面向用戶實(shí)時(shí)交互的視頻流媒體場景)定制數(shù)據(jù)源策略和數(shù)據(jù)采集方案。
4. 數(shù)據(jù)處理與構(gòu)建:
○ 設(shè)計(jì)并執(zhí)行數(shù)據(jù)清洗、預(yù)處理、去噪流程。
○ 定義并確保高質(zhì)量的數(shù)據(jù)標(biāo)準(zhǔn)。
○ 組織和管理數(shù)據(jù)標(biāo)注工作。
○ 構(gòu)建結(jié)構(gòu)化的、適用于模型訓(xùn)練和評測的高質(zhì)量數(shù)據(jù)集。
5. 流程優(yōu)化: 持續(xù)優(yōu)化數(shù)據(jù)獲取、處理、標(biāo)注、存儲和管理流程,提升效率與質(zhì)量。
6. 評測數(shù)據(jù)建設(shè): 專注于構(gòu)建公平、全面、具有挑戰(zhàn)性的VLM模型評測數(shù)據(jù)集,服務(wù)于模型能力評估和行業(yè)對比。
任職資格:
1. 學(xué)歷與專業(yè)背景:
○ 計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)、人工智能、軟件工程或相關(guān)領(lǐng)域的本科及以上學(xué)歷。
2. 相關(guān)經(jīng)驗(yàn)與技術(shù)領(lǐng)域年限:
○ 年限:
■ 1年~3年數(shù)據(jù)處理、數(shù)據(jù)工程或機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域工作經(jīng)驗(yàn)。
■ 1年及以上實(shí)際處理多模態(tài)數(shù)據(jù)(圖像+文本、視頻+文本等)的項(xiàng)目經(jīng)驗(yàn),熟悉其特有挑戰(zhàn)和處理方法。
○ 優(yōu)先:有視覺語言模型(VLM) 相關(guān)項(xiàng)目數(shù)據(jù)工作經(jīng)驗(yàn),深刻理解其數(shù)據(jù)需求。
3. 專業(yè)技能:
○ 數(shù)據(jù)處理基礎(chǔ)扎實(shí): 了解數(shù)據(jù)清洗、預(yù)處理、轉(zhuǎn)換技術(shù),熟悉常見的數(shù)據(jù)處理工具和庫(如Pandas, NumPy, SQL等)。
○ 多模態(tài)理解基礎(chǔ): 對計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)的基本概念、任務(wù)及數(shù)據(jù)格式有清晰理解。
○ VLM任務(wù)認(rèn)知: 深入理解主流VLM任務(wù)的原理、評估指標(biāo)及其對數(shù)據(jù)的具體要求(如高質(zhì)量的圖文對、精準(zhǔn)的視頻-文本對齊)。
○ 網(wǎng)絡(luò)數(shù)據(jù)檢索能力: 熟練掌握從各類網(wǎng)絡(luò)資源(社交媒體、專業(yè)論壇、公開數(shù)據(jù)集平臺、特定領(lǐng)域網(wǎng)站)高效檢索和獲取所需數(shù)據(jù)的方法與工具(如爬蟲技術(shù)、API使用)。
○ 數(shù)據(jù)標(biāo)準(zhǔn)制定: 具備定義清晰、可執(zhí)行的多模態(tài)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(如圖文相關(guān)性、視頻片段描述準(zhǔn)確性、時(shí)序?qū)R度)的能力。
○ (加分項(xiàng))數(shù)據(jù)標(biāo)注管理: 有設(shè)計(jì)標(biāo)注規(guī)范、管理標(biāo)注團(tuán)隊(duì)或使用標(biāo)注平臺的經(jīng)驗(yàn)。
4. 軟技能:
○ 信息搜集與整合能力: 能夠敏銳地發(fā)現(xiàn)并整合分散的網(wǎng)絡(luò)數(shù)據(jù)資源。
○ 分析與解決問題能力: 能夠精準(zhǔn)分析VLM任務(wù)的數(shù)據(jù)需求,識別數(shù)據(jù)短板,并制定有效的解決方案。
○ 細(xì)致嚴(yán)謹(jǐn): 對數(shù)據(jù)質(zhì)量有高標(biāo)準(zhǔn)要求,注重細(xì)節(jié),確保數(shù)據(jù)的準(zhǔn)確性和一致性。
○ 溝通協(xié)作: 能夠清晰表達(dá)數(shù)據(jù)需求和標(biāo)準(zhǔn),與算法工程師、研究員、標(biāo)注團(tuán)隊(duì)等進(jìn)行有效協(xié)作。
○ 主動(dòng)性: 主動(dòng)探索新的數(shù)據(jù)源、工具和方法,持續(xù)優(yōu)化數(shù)據(jù)流程。
○ 學(xué)習(xí)能力: 能夠快速學(xué)習(xí)VLM領(lǐng)域的新進(jìn)展及其對數(shù)據(jù)提出的新要求。
薪資待遇:10-20k
工作地點(diǎn):杭州余杭區(qū)阿里西溪區(qū)