崗位職責(zé):
1. 負(fù)責(zé)公司平臺(tái)級(jí)核心服務(wù)的運(yùn)維與團(tuán)隊(duì)管理,提升業(yè)務(wù)的穩(wěn)定性、可靠性與工程效率;
2. 主導(dǎo)應(yīng)用上線(xiàn)評(píng)審、發(fā)布交付、配置變更、狀態(tài)監(jiān)控、容量管理、故障響應(yīng)等關(guān)鍵流程;
3. 參與核心服務(wù)的高可用性設(shè)計(jì)、性能優(yōu)化和容量規(guī)劃,確保業(yè)務(wù)平滑擴(kuò)展與高效迭代;
4. 主導(dǎo)線(xiàn)上重大問(wèn)題排查、故障恢復(fù)與復(fù)盤(pán)優(yōu)化,推動(dòng)故障演練、應(yīng)急預(yù)案與SOP建設(shè);
5. 負(fù)責(zé)容器化環(huán)境下高可用管理,包括限流、降級(jí)、容錯(cuò)、容災(zāi)等方案制定與落地;
6. 推動(dòng)運(yùn)維流程標(biāo)準(zhǔn)化、文檔化、平臺(tái)化與自動(dòng)化建設(shè),提升整個(gè)團(tuán)隊(duì)的運(yùn)維交付效率與安全保障能力。技能要求:
- 本科及以上學(xué)歷,6 年以上互聯(lián)網(wǎng)公司運(yùn)維經(jīng)驗(yàn),1 年以上技術(shù)團(tuán)隊(duì)管理經(jīng)驗(yàn);- 熟悉微服務(wù)架構(gòu)、分布式系統(tǒng)部署、兩地三中心、業(yè)務(wù)多活等架構(gòu)模型;
- 精通 Kubernetes 生態(tài)及其組件運(yùn)行原理,具備大規(guī)模生產(chǎn)環(huán)境下的使用、排錯(cuò)和性能調(diào)優(yōu)經(jīng)驗(yàn);
- 熟練掌握 Python / Go / Shell 等腳本語(yǔ)言,能獨(dú)立開(kāi)發(fā)運(yùn)維工具或服務(wù);
- 熟悉并應(yīng)用過(guò) SRE 運(yùn)維體系(如 SLO/SLA、Error Budget、可觀測(cè)性、自動(dòng)化響應(yīng));
- 有強(qiáng)系統(tǒng)架構(gòu)思維,具備技術(shù)推進(jìn)、流程優(yōu)化和平臺(tái)工程化能力;
其他要求:
- 有 PostgreSQL / Doris / Kafka / Nacos 等組件運(yùn)維經(jīng)驗(yàn);
- 具備 Service Mesh 實(shí)戰(zhàn)(如 Istio)、Sidecar 模型理解;
- 有 DevOps 平臺(tái)工具自研或二次開(kāi)發(fā)經(jīng)驗(yàn);