崗位職責(zé):
1.負(fù)責(zé)公司自研運(yùn)維系統(tǒng)的日常部署、配置、監(jiān)控與維護(hù),確保系統(tǒng)高可用、高性能運(yùn)行。
2.負(fù)責(zé) Prometheus、VictoriaMetrics、OTel、SigNoz 等監(jiān)控告警組件的統(tǒng)一配置與指標(biāo)規(guī)則優(yōu)化,支撐多源告警接入與健康巡檢。
3.參與自動(dòng)化運(yùn)維體系建設(shè),維護(hù)任務(wù)執(zhí)行、腳本分發(fā)、健康巡檢模塊的運(yùn)行環(huán)境,優(yōu)化執(zhí)行策略與任務(wù)編排。
4.協(xié)助開(kāi)發(fā)團(tuán)隊(duì)完成系統(tǒng)發(fā)布、環(huán)境搭建、性能調(diào)優(yōu)與版本更新,建立標(biāo)準(zhǔn)化運(yùn)維流程與應(yīng)急預(yù)案。
5.編寫與維護(hù)運(yùn)維相關(guān)技術(shù)文檔(操作手冊(cè)、部署手冊(cè)、監(jiān)控規(guī)范、應(yīng)急預(yù)案等),保障知識(shí)資產(chǎn)可追溯。
6.負(fù)責(zé)日志采集、分析與告警規(guī)則的維護(hù),支持日志與告警聯(lián)動(dòng)排障及根因分析。
參與安全合規(guī)與巡檢任務(wù)執(zhí)行,按要求生成巡檢報(bào)告與健康度評(píng)分,支撐管理層態(tài)勢(shì)看板展示。
任職資格:
1.本科及以上學(xué)歷,計(jì)算機(jī)、信息安全、通信工程或相關(guān)專業(yè),3年以上運(yùn)維或運(yùn)維開(kāi)發(fā)經(jīng)驗(yàn)。
2.熟悉 Linux 系統(tǒng)管理與 Shell/Python 腳本開(kāi)發(fā),具備獨(dú)立排查性能與網(wǎng)絡(luò)問(wèn)題能力。
3.熟悉 Prometheus/Alertmanager、OTel Collector、SigNoz、Grafana 等常用監(jiān)控告警體系,具備自定義告警規(guī)則與可視化經(jīng)驗(yàn)。
4.了解云計(jì)算與虛擬化平臺(tái)(OpenStack、VMware、ZStack等),熟悉 API/SDK 接入與云資源管理。
5.具備日志采集與分析經(jīng)驗(yàn),熟悉 ELK、Fluentd、Vector、ClickHouse 等組件。
6.有 Ansible、SaltStack、Jenkins 等自動(dòng)化運(yùn)維工具使用經(jīng)驗(yàn),了解 CI/CD 流程與作業(yè)編排。
7.具備較強(qiáng)的溝通與協(xié)作能力,能與開(kāi)發(fā)、測(cè)試、產(chǎn)品團(tuán)隊(duì)緊密配合,推動(dòng)運(yùn)維標(biāo)準(zhǔn)化與自動(dòng)化建設(shè)。
8.擁有 RHCE、CKA、AWS/Azure 云證書(shū)等者優(yōu)先考慮。
對(duì)安全合規(guī)、零信任、數(shù)據(jù)治理方向有了解者優(yōu)先。