負責AI基礎(chǔ)設(shè)施的設(shè)計、搭建與優(yōu)化,管理機器學習模型全生命周期,確保AI能力從實驗室到規(guī)?;瘧?yīng)用的穩(wěn)定性。
設(shè)計并實施高效的CI/CD/CT流程,主導(dǎo)技術(shù)選型,打造高效研發(fā)平臺。
負責大語言模型(LLM)的部署、監(jiān)控、擴縮容與性能優(yōu)化,構(gòu)建監(jiān)控告警與應(yīng)急響應(yīng)機制,保障AI服務(wù)高可用性。
深入研發(fā)流程,識別效率瓶頸,主導(dǎo)自動化體系建設(shè),實現(xiàn)運維工作自動化。
持續(xù)追蹤并引入前沿MLOps及大模型技術(shù)(如推理加速、模型量化等),保持技術(shù)基礎(chǔ)設(shè)施先進性。
跟進開源工具及項目,快速構(gòu)建實驗環(huán)境進行驗證與試用。
任職要求:
擁有3年左右DevOps/SRE/平臺開發(fā)經(jīng)驗,具備1年以上大語言模型(LLM)部署、運維與性能優(yōu)化經(jīng)驗。
精通容器化技術(shù)(Docker)與編排系統(tǒng)(Kubernetes),具備K8s集群運維與故障排查能力。
熟練掌握至少一套CI/CD工具鏈(如Jenkins、GitLab CI等)。
精通監(jiān)控體系(如Prometheus、Grafana等)搭建與應(yīng)用,熟練使用Python/Shell/Go等語言進行自動化開發(fā)。