一、職位描述
致力于打造高性能AI計算平臺,招募一名兼具AI基礎(chǔ)設(shè)施運維能力與全棧開發(fā)潛力的工程師。您將深度參與AI算力集群管理、遠程運維體系構(gòu)建及研發(fā)協(xié)作全流程,推動AI技術(shù)的高效落地。我們提供給您參與AI基礎(chǔ)設(shè)施從0到1建設(shè)的核心機會,以及與頂尖算法團隊協(xié)作,深入AI工業(yè)化落地場景。
二、崗位職責(zé)
1. 負(fù)責(zé)英偉達GPU集群及華為昇騰910系列AI服務(wù)器的運維管理,包括硬件監(jiān)控、驅(qū)動適配、性能調(diào)優(yōu)及故障診斷;
2. 搭建基于混合云架構(gòu)的遠程運維平臺,實現(xiàn)跨地域AI算力資源的統(tǒng)一調(diào)度與自動化運維;
3. 配合研發(fā)團隊完成AI訓(xùn)練/推理系統(tǒng)的開發(fā)測試,設(shè)計CI/CD流水線,優(yōu)化模型部署效率;
4. 構(gòu)建運維監(jiān)控鏈,構(gòu)建從硬件層到應(yīng)用層的全棧可觀測性體系;
5. 研究AI算力集群的能效優(yōu)化方案,制定服務(wù)器資源彈性伸縮策略。
三、任職要求
(一)必備條件
1. 碩士及以上學(xué)歷,計算機/電子工程/數(shù)學(xué)等相關(guān)專業(yè);
2. 3年以上Linux系統(tǒng)運維/DevOps經(jīng)驗,精通Shell/Python/Go至少一門語言;
3. 熟悉Docker/K8s生態(tài),有大規(guī)模集群管理經(jīng)驗;
4. 掌握監(jiān)控工具鏈(Prometheus/Grafana/ELK等),具備全鏈路問題定位能力;
5. 了解主流AI框架(TensorFlow/PyTorch)及計算資源管理工具(Kubeflow/Slurm);
6. 對網(wǎng)絡(luò)、存儲、分布式系統(tǒng)有深入理解,能獨立設(shè)計高可用架構(gòu)。
(二)加分項
1. 有AI大模型部署優(yōu)化建設(shè)經(jīng)驗;
2. 熟悉云計算平臺(AWS/Azure/阿里云)AI服務(wù)架構(gòu);
3. 持有K8s/CKA/Ceph等認(rèn)證證書;
4. 發(fā)表過運維/系統(tǒng)優(yōu)化相關(guān)技術(shù)文章或開源項目貢獻者。