崗位職責(zé):
1、 基礎(chǔ)設(shè)施管理:負(fù)責(zé)用戶現(xiàn)場(chǎng)虛擬機(jī)、Kubernetes集群及中間件資源的維護(hù)與管理,包括Linux操作系統(tǒng)與開(kāi)源組件的部署、資源擴(kuò)容、配置變更等日常運(yùn)維操作。
2、 平臺(tái)發(fā)版與上線支持:負(fù)責(zé)業(yè)務(wù)平臺(tái)在正式環(huán)境的版本發(fā)布評(píng)審與操作實(shí)施。
3、 故障處理與恢復(fù):快速響應(yīng)系統(tǒng)及開(kāi)源組件的異常事件,準(zhǔn)確診斷問(wèn)題根源,實(shí)施有效修復(fù)措施,最大限度減少服務(wù)中斷時(shí)間,提升系統(tǒng)可用性。
4、 算力資源管理:根據(jù)用戶需求,完成算力資源的納管與釋放,確保資源可監(jiān)控、可調(diào)度、可管理。
5、 模型評(píng)測(cè):對(duì)模型在不同算力設(shè)備上的運(yùn)行表現(xiàn)進(jìn)行模型性能、基準(zhǔn)能力、行業(yè)能力的評(píng)估,輸出評(píng)測(cè)數(shù)據(jù),評(píng)估模型適配的硬件資源類型,支持模型部署決策。
6、 模型部署支持:根據(jù)業(yè)務(wù)需求,完成模型的部署工作,包括資源配置建議、鏡像打包、部署驗(yàn)證及性能指標(biāo)跟蹤。
7、 模型運(yùn)行監(jiān)控:實(shí)時(shí)監(jiān)控模型運(yùn)行狀態(tài),包括準(zhǔn)確性、響應(yīng)時(shí)間、資源占用等關(guān)鍵指標(biāo);定期開(kāi)展模型健康檢查和性能撥測(cè),識(shí)別瓶頸并推動(dòng)優(yōu)化改進(jìn)。
任職要求:
1、 計(jì)算機(jī)相關(guān)專業(yè),大學(xué)本科或以上學(xué)歷;
2、 具備3年以上Linux運(yùn)維工作,精通linux環(huán)境下的日常運(yùn)維工具,并具備安裝、配置及排障能力;
3、 熟悉Docker\Kubernetes等生態(tài)圈項(xiàng)目,如容器集群、監(jiān)控、日志、存儲(chǔ)等部署方案;
4、 熟練使用shell、python等語(yǔ)言進(jìn)行運(yùn)維工具或自動(dòng)化腳本的編寫(xiě);
5、 優(yōu)先考慮掌握NVIDIA系列卡的大模型部署,熟悉大模型在海光K100、華為910B等國(guó)產(chǎn)算力卡的應(yīng)用部署;
6、 優(yōu)先考慮熟練使用至少一種主流Al訓(xùn)練框架,如TensorFlow、PyTorch、Caffe等;
7、 具備較強(qiáng)的運(yùn)維意識(shí)以及自我驅(qū)動(dòng)和學(xué)習(xí)能力。