崗位職責(zé):
(1)主導(dǎo)Operator設(shè)計(jì)與研發(fā):基于Kubernetes構(gòu)建Operator框架,封裝業(yè)務(wù)邏輯及運(yùn)維能力,實(shí)現(xiàn)部署、擴(kuò)縮容、故障恢復(fù)等全生命周期自動(dòng)化管理,指導(dǎo)團(tuán)隊(duì)完成Operator的架構(gòu)設(shè)計(jì)、代碼開發(fā)及性能優(yōu)化,確保與PaaS平臺(tái)的無(wú)縫集成,推動(dòng)運(yùn)維能力與智能分析(如AI預(yù)測(cè)、資源調(diào)度)的融合 ;
(2)云原生平臺(tái)能力建設(shè):設(shè)計(jì)并實(shí)現(xiàn)K8s擴(kuò)展功能(如CRD、Controller、CNI插件),優(yōu)化資源調(diào)度算法及集群資源利用率,支持千節(jié)點(diǎn)級(jí)別的容器化業(yè)務(wù)規(guī)模;構(gòu)建可觀測(cè)性體系(監(jiān)控、日志、告警),保障平臺(tái)穩(wěn)定性(SLO≥99.95%)及高并發(fā)場(chǎng)景下的性能調(diào)優(yōu);
(3)技術(shù)研究與生態(tài)整合:跟蹤研究CNCF社區(qū)技術(shù)發(fā)展趨勢(shì)(如Istio、Prometheus Operator),推動(dòng)開源項(xiàng)目在業(yè)務(wù)中的落地,參與云原生中間件(Service Mesh、Serverless)的研發(fā);結(jié)合智能算力需求,探索多云/混合云架構(gòu)下的統(tǒng)一調(diào)度方案,實(shí)現(xiàn)邊緣計(jì)算與中心化平臺(tái)的協(xié)同 ;
(4)跨團(tuán)隊(duì)協(xié)作與標(biāo)準(zhǔn)化推進(jìn):制定云原生技術(shù)規(guī)范及交付流程,指導(dǎo)業(yè)務(wù)團(tuán)隊(duì)完成微服務(wù)拆分、容器編排及DevSecOps流程落地;協(xié)調(diào)開發(fā)、測(cè)試、運(yùn)維資源,推動(dòng)云原生技術(shù)在全公司IT系統(tǒng)的遷移與標(biāo)準(zhǔn)化實(shí)施。
任職要求:
(1)計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,5年以上云原生領(lǐng)域經(jīng)驗(yàn),3年以上K8s Operator開發(fā)或架構(gòu)設(shè)計(jì)經(jīng)驗(yàn) ;
(2)精通Go/Java語(yǔ)言,深入理解Kubernetes核心組件(API Server、Controller Manager、ETCD)及Operator SDK/Kubebuilder開發(fā)框架 ;
(3)熟悉Operator開發(fā)全流程,包括CRD定義、Reconcile循環(huán)、自定義控制器開發(fā),有大規(guī)模集群管理及性能調(diào)優(yōu)經(jīng)驗(yàn) ;
(4)掌握云原生生態(tài)技術(shù)棧(如Istio、Prometheus、Fluentd),具備分布式數(shù)據(jù)庫(kù)強(qiáng)一致性、Service Mesh等復(fù)雜場(chǎng)景的解決方案設(shè)計(jì)能力 ;
(5)主導(dǎo)過(guò)至少1個(gè)企業(yè)級(jí)云原生平臺(tái)從0到1的架構(gòu)設(shè)計(jì)與落地,支持千萬(wàn)級(jí)設(shè)備或百萬(wàn)級(jí)租戶規(guī)模,或有AI訓(xùn)練平臺(tái)、多集群管理、Serverless架構(gòu)等前沿領(lǐng)域?qū)嵺`經(jīng)驗(yàn)者優(yōu)先 ;
(6)對(duì)云原生技術(shù)趨勢(shì)敏感,持有CKA/CKAD/PMP認(rèn)證者優(yōu)先。