工作職責(zé)
1.設(shè)計(jì)并搭建大規(guī)模 K8S 計(jì)算集群,保障數(shù)據(jù)、訓(xùn)練、推理等平臺(tái)穩(wěn)定運(yùn)行。
2.負(fù)責(zé) K8S 集群日常運(yùn)維,包括資源調(diào)度、彈性擴(kuò)縮容、服務(wù)部署與版本升級(jí)。
3.優(yōu)化 K8S 集群性能,解決任務(wù)調(diào)度、彈性容災(zāi)等技術(shù)問(wèn)題,提升平臺(tái)運(yùn)行效率。
4.監(jiān)控集群狀態(tài),快速定位并處理故障,制定應(yīng)急預(yù)案,保障業(yè)務(wù)連續(xù)性。
5.研究業(yè)內(nèi) K8S 運(yùn)維方案,結(jié)合 AI 平臺(tái)需求優(yōu)化運(yùn)維流程與技術(shù)方案。
任職資格
1.計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,3 年以上 K8S 運(yùn)維經(jīng)驗(yàn),有 AI 平臺(tái)運(yùn)維經(jīng)驗(yàn)優(yōu)先。
2.精通 K8S 集群架構(gòu)、網(wǎng)絡(luò)、存儲(chǔ)、資源管理,熟練使用 kubectl、Helm 等工具。
3.熟悉 Docker 容器化技術(shù),掌握 Spring Boot、Python 等服務(wù)部署與調(diào)試。
4.熟悉 Jenkins、Argo 等 DevOps 工具鏈,具備自動(dòng)化運(yùn)維、CI/CD 流程搭建經(jīng)驗(yàn)。
5.具備良好的問(wèn)題分析與解決能力,責(zé)任心強(qiáng),能適應(yīng)高強(qiáng)度運(yùn)維工作。
6.具備獨(dú)立部署redis、rabbitmq、mysql、minio、harbor、es等組件并調(diào)優(yōu)