崗位職責
1、系統(tǒng)監(jiān)控與告警:
建立完善的大模型系統(tǒng)監(jiān)控體系,實時監(jiān)控系統(tǒng)各項指標(GPU、內存、磁盤、無損網絡等),及時發(fā)現并解決潛在問題。
配置告警規(guī)則,對異常情況進行及時告警,并制定相應的應急預案。
2、 性能優(yōu)化:
分析系統(tǒng)性能瓶頸,提出優(yōu)化方案,提升系統(tǒng)運行效率。
參與模型優(yōu)化,提高模型推理速度和準確率。
3、故障處理與應急響應:
快速定位并解決系統(tǒng)故障,保障系統(tǒng)的穩(wěn)定運行。
制定完善的應急預案,在突發(fā)事件發(fā)生時能夠迅速響應。
4、運維自動化:
構建自動化運維平臺,實現系統(tǒng)部署、配置、監(jiān)控等工作的自動化。
使用Python與Shell編寫GPU集群運維自動化腳本,提高運維效率。
5、容量規(guī)劃:
根據業(yè)務發(fā)展需求,進行系統(tǒng)容量規(guī)劃,確保系統(tǒng)資源充足。
6、技術文檔編寫:
編寫詳細的運維文檔,方便團隊成員了解系統(tǒng)架構和運維流程。
任職要求
1、計算機相關專業(yè)本科及以上學歷。
2、3年以上大規(guī)模云計算平臺運維經驗,熟悉Shell、Python等腳本語言。
3、熟悉Docker、Kubernetes等容器化技術。
4、 熟悉Prometheus、Grafana等監(jiān)控告警工具。
5、 了解華為昇思大模型平臺,熟悉CANN、vLLM等技術。
6、具備良好的問題分析和解決能力,以及較強的溝通表達能力。
7、有大規(guī)模分布式系統(tǒng)運維經驗者優(yōu)先。