崗位職責:
1. 參與需求分析及技術(shù)方案設(shè)計。
2. 數(shù)據(jù)定制化: 根據(jù)特定項目方向(如面向轉(zhuǎn)場、多鏡頭、前景字符)定制數(shù)據(jù)源策略和數(shù)據(jù)處理方案。
3. 數(shù)據(jù)處理與構(gòu)建:
○ 設(shè)計并執(zhí)行數(shù)據(jù)清洗、預(yù)處理。
○ 定義并確保高質(zhì)量的數(shù)據(jù)標準。
○ 組織和管理數(shù)據(jù)標注工作。
○ 構(gòu)建結(jié)構(gòu)化的、適用于模型訓(xùn)練和評測的高質(zhì)量數(shù)據(jù)集。
4. 流程優(yōu)化: 持續(xù)優(yōu)化數(shù)據(jù)獲取、處理、標注、存儲和管理流程,提升效率與質(zhì)量。
5. 評測數(shù)據(jù)建設(shè): 專注于構(gòu)建公平、全面、具有挑戰(zhàn)性模型評測數(shù)據(jù)集,服務(wù)于模型能力評估和行業(yè)對比。
崗位需求:
1. 計算機科學、數(shù)據(jù)科學、人工智能、軟件工程或相關(guān)領(lǐng)域的本科及以上學歷。
2. 相關(guān)經(jīng)驗與技術(shù)領(lǐng)域年限:
■ 1年~3年數(shù)據(jù)處理、數(shù)據(jù)工程或機器學習相關(guān)領(lǐng)域工作經(jīng)驗。
■ 1年及以上實際處理視頻數(shù)據(jù)(圖像+文本、視頻+文本等)的項目經(jīng)驗,熟悉其特有挑戰(zhàn)和處理方法。
優(yōu)先:有視覺語言模型(VLM) 相關(guān)項目數(shù)據(jù)工作經(jīng)驗,深刻理解其數(shù)據(jù)需求。
3. 專業(yè)技能:
數(shù)據(jù)處理基礎(chǔ)扎實: 了解數(shù)據(jù)清洗、預(yù)處理、轉(zhuǎn)換技術(shù),熟悉常見的數(shù)據(jù)處理工具和庫(如Pandas, NumPy, SQL等)。
數(shù)據(jù)標準制定: 具備定義清晰、可執(zhí)行的多模態(tài)數(shù)據(jù)質(zhì)量標準(如圖文相關(guān)性、視頻片段描述準確性、時序?qū)R度)的能力。
數(shù)據(jù)標注管理: 有設(shè)計標注規(guī)范、管理標注團隊或使用標注平臺的經(jīng)驗。