崗位職責(zé)
1、負(fù)責(zé)智算中心服務(wù)器的日常巡檢,按規(guī)定頻次檢查服務(wù)器硬件運行狀態(tài)(如GPU、 CPU、內(nèi)存、硬盤、電源等部件)、系統(tǒng)運行參數(shù)(如GPU、CPU工況、內(nèi)存占用率、磁盤空間等),及時發(fā)現(xiàn)潛在故障風(fēng)險并記錄反饋;
2、承擔(dān)服務(wù)器故障排查與修復(fù)工作,接到故障報警或報修需求后,快速響應(yīng),通過硬件檢測工具、系統(tǒng)日志分析等方式定位問題,如更換故障硬盤、修復(fù)系統(tǒng)漏洞、處理網(wǎng)絡(luò)連接異常等,確保服務(wù)器在最短時間內(nèi)恢復(fù)正常運行;
3、做好服務(wù)器維護相關(guān)文檔記錄與管理,詳細(xì)記錄每次巡檢結(jié)果、故障處理過程、硬件更換信息、系統(tǒng)配置變更等內(nèi)容,定期整理歸檔,確保文檔的完整性和準(zhǔn)確性,為后續(xù)維護工作提供參考;
4、完成領(lǐng)導(dǎo)安排的臨時性工作。
任職要求
1、大專學(xué)歷,計算機相關(guān)專業(yè)(如計算機應(yīng)用技術(shù)、計算機網(wǎng)絡(luò)技術(shù)、電子信息工程技術(shù)等)優(yōu)先,非相關(guān)專業(yè)但有服務(wù)器維護實操經(jīng)驗者也可考慮,經(jīng)驗豐富者學(xué)歷可以放寬;
2、具備基礎(chǔ)的電腦硬件知識,熟悉GPU服務(wù)器架構(gòu)(如NVIDIA工具鏈)、高速網(wǎng)絡(luò)(InfiniBand/RoCE)及分布式存儲(Ceph/Lustre);
3、具備一定的故障排查思維,能通過簡單的工具和方法判斷服務(wù)器硬件或系統(tǒng)故障,有相關(guān)故障處理經(jīng)驗者優(yōu)先;
4、了解常見服務(wù)器操作系統(tǒng)的基本操作,能進行系統(tǒng)啟動、關(guān)機、用戶管理、文件備份等基礎(chǔ)操作;
5、熟悉基本的網(wǎng)絡(luò)知識,了解 IP 地址配置、子網(wǎng)掩碼、網(wǎng)關(guān)等概念,能協(xié)助排查服務(wù)器網(wǎng)絡(luò)連接問題;
6、能夠接受國內(nèi)外出差,能夠接受兩班倒的工時制。