1、根據客戶需求選型算力標準,確保性能、穩(wěn)定性、成本三平衡;
2、設計并實現(xiàn)算力調度策略與配額管理機制,持續(xù)提升集群利用率與作業(yè)排隊效率;
5、建立端到端成本監(jiān)控體系,定期輸出資源使用與優(yōu)化報告,通過算法加速、模型壓縮、分布式訓練改造等手段降低單位算力成本
6、沉淀算力需求評估、交付、運營流程與文檔,賦能業(yè)務團隊高效、合規(guī)使用智算資源;
二、任職要求
1、本科及以上學歷,計算機、軟件工程、電子信息、自動化等相關專業(yè);
2、3 年以上智算(AI/HPC)項目經驗,完整主導過千張 GPU 卡或以上規(guī)模集群的規(guī)劃、交付或優(yōu)化項目;
3、熟悉主流 GPU(NVIDIA A100/H100、AMD MI 系列)架構、性能調優(yōu)及故障定位,掌握 CUDA/ROCm 生態(tài)工具;
4、理解分布式訓練(DDP、DeepSpeed、Megatron)與推理加速(TensorRT、ONNXRuntime、vLLM)原理,具備實際性能調優(yōu)案例;
5、熟悉 Kubernetes、Slurm、YARN 等至少一種資源調度框架,有二次開發(fā)或插件擴展經驗者優(yōu)先;