崗位職責:
1.統(tǒng)籌公司人工智能數(shù)據(jù)資產(chǎn)(圖像、文本、語音、視頻、多模態(tài)等)的樣本集規(guī)劃、采集、標注、質(zhì)檢、版本管理與生命周期治理,建立覆蓋原始數(shù)據(jù)→標注數(shù)據(jù)→訓練數(shù)據(jù)→評測數(shù)據(jù)的端到端閉環(huán)流程。
2.制定并持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量、安全、合規(guī)與成本指標體系,通過自動化質(zhì)檢腳本、統(tǒng)計抽樣、眾包/外包管理、AIGC輔助標注等手段,確保樣本集滿足算法迭代與業(yè)務上線的高標準需求。
3.建設數(shù)據(jù)可視化與洞察平臺,對樣本分布、標注質(zhì)量、使用熱度、合規(guī)風險等進行多維度監(jiān)控與預警。
4.完成公司交辦的其他工作任務。
任職要求:
1.工作經(jīng)驗:具有3年以上AI數(shù)據(jù)工程或數(shù)據(jù)集管理核心崗位經(jīng)驗優(yōu)先,獨立負責過至少1個千萬級樣本規(guī)模的多模態(tài)數(shù)據(jù)集從0到1的建設與持續(xù)運營優(yōu)先。
2.能力要求:
(1)熟悉Git-LFS、DVC、DeltaLake或HuggingFacedatasets等數(shù)據(jù)版本管理方案;
(2)熟悉數(shù)據(jù)標注流程與質(zhì)量控制體系,熟練運用LabelStudio、CVAT、Prodigy、ScaleAI、AmazonSageMakerGroundTruth等平臺;
(3)熟悉自動化質(zhì)檢(IoU、一致性檢驗、黃金集、交叉驗證等);
(4)熟悉數(shù)據(jù)合規(guī)與隱私保護,了解GDPR、CCPA、《個人信息保護法》等國內(nèi)外法規(guī),掌握數(shù)據(jù)脫敏、差分隱私、聯(lián)邦學習、可信執(zhí)行環(huán)境(TEE)等落地方法。