崗位職責(zé)
1、系統(tǒng)監(jiān)控與告警:
建立完善的大模型系統(tǒng)監(jiān)控體系,實(shí)時(shí)監(jiān)控系統(tǒng)各項(xiàng)指標(biāo)(GPU、內(nèi)存、磁盤(pán)、無(wú)損網(wǎng)絡(luò)等),及時(shí)發(fā)現(xiàn)并解決潛在問(wèn)題。
配置告警規(guī)則,對(duì)異常情況進(jìn)行及時(shí)告警,并制定相應(yīng)的應(yīng)急預(yù)案。
2、 性能優(yōu)化:
分析系統(tǒng)性能瓶頸,提出優(yōu)化方案,提升系統(tǒng)運(yùn)行效率。
參與模型優(yōu)化,提高模型推理速度和準(zhǔn)確率。
3、故障處理與應(yīng)急響應(yīng):
快速定位并解決系統(tǒng)故障,保障系統(tǒng)的穩(wěn)定運(yùn)行。
制定完善的應(yīng)急預(yù)案,在突發(fā)事件發(fā)生時(shí)能夠迅速響應(yīng)。
4、運(yùn)維自動(dòng)化:
構(gòu)建自動(dòng)化運(yùn)維平臺(tái),實(shí)現(xiàn)系統(tǒng)部署、配置、監(jiān)控等工作的自動(dòng)化。
使用Python與Shell編寫(xiě)GPU集群運(yùn)維自動(dòng)化腳本,提高運(yùn)維效率。
5、容量規(guī)劃:
根據(jù)業(yè)務(wù)發(fā)展需求,進(jìn)行系統(tǒng)容量規(guī)劃,確保系統(tǒng)資源充足。
6、技術(shù)文檔編寫(xiě):
編寫(xiě)詳細(xì)的運(yùn)維文檔,方便團(tuán)隊(duì)成員了解系統(tǒng)架構(gòu)和運(yùn)維流程。
任職要求
1、計(jì)算機(jī)相關(guān)專(zhuān)業(yè)本科及以上學(xué)歷。
2、3年以上大規(guī)模云計(jì)算平臺(tái)運(yùn)維經(jīng)驗(yàn),熟悉Shell、Python等腳本語(yǔ)言。
3、熟悉Docker、Kubernetes等容器化技術(shù)。
4、 熟悉Prometheus、Grafana等監(jiān)控告警工具。
5、 了解華為昇思大模型平臺(tái),熟悉CANN、vLLM等技術(shù)。
6、具備良好的問(wèn)題分析和解決能力,以及較強(qiáng)的溝通表達(dá)能力。
7、有大規(guī)模分布式系統(tǒng)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。