職位概述:
我們正在尋找一位對技術(shù)充滿熱情、細(xì)致嚴(yán)謹(jǐn)?shù)囊痪€運維工程師。您將成為我們AI基礎(chǔ)設(shè)施和平臺穩(wěn)定性的守護(hù)者,直接參與維護(hù)支持大模型推理與服務(wù)的生產(chǎn)環(huán)境。
主要職責(zé):
1、負(fù)責(zé)客戶算力云主機(jī)的一線運維支持與故障響應(yīng);
2、負(fù)責(zé)客戶算力云主機(jī)的開通流程與交付管理;
3、負(fù)責(zé)客戶算力云主機(jī)的定制化軟件部署與配置;
4、負(fù)責(zé)客戶算力云主機(jī)的推理鏡像制作與優(yōu)化;
5、負(fù)責(zé)算力平臺客戶使用情況的統(tǒng)計與分析;
6、負(fù)責(zé)平臺功能測試與系統(tǒng)驗證;
7、負(fù)責(zé)平臺客戶培訓(xùn)與平臺操作指導(dǎo)。
任職要求:
1.學(xué)歷與經(jīng)驗:計算機(jī)科學(xué)或相關(guān)專科及以上學(xué)歷,擁有1-3年Linux系統(tǒng)運維或SRE經(jīng)驗。
2.Linux核心技能:
?精通Linux操作系統(tǒng)原理,熟練進(jìn)行系統(tǒng)管理、性能調(diào)優(yōu)(CPU/內(nèi)存/磁盤IO/網(wǎng)絡(luò))和故障診斷。
?精通Shell腳本編程,能獨立編寫自動化運維腳本。
3.工具熟練度:
?必須熟練使用Vim進(jìn)行文本編輯和配置文件修改。
?熟悉Prometheus等監(jiān)控工具。
?熟悉Docker的工具。
4.個人素質(zhì):
?具備強(qiáng)烈的責(zé)任心和主動服務(wù)意識,面對壓力能保持冷靜。
?擁有出色的邏輯分析能力和問題解決能力,對解決復(fù)雜技術(shù)問題有濃厚興趣。
?良好的團(tuán)隊溝通和協(xié)作能力。
優(yōu)先考慮:
?有基于Linux的容器化平臺運維經(jīng)驗者優(yōu)先。
?有維護(hù)GPU/NPU計算集群經(jīng)驗者優(yōu)先。
?熟悉Python編程,能夠使用Python編寫工具腳本或小型測試程序者優(yōu)先。
?對主流大模型(如DeepSeek,Qwen系列)有實際使用或測試經(jīng)驗者優(yōu)先。