工作職責(zé):
1. 負(fù)責(zé)內(nèi)部HPC集群計(jì)算/存儲(chǔ)系統(tǒng)運(yùn)維(包括部署、擴(kuò)容、監(jiān)控、故障處理、優(yōu)化等);
2. 參與系統(tǒng)運(yùn)維的相關(guān)工具/系統(tǒng)開(kāi)發(fā)(包括自動(dòng)化運(yùn)維、監(jiān)控等);
3. 負(fù)責(zé)數(shù)據(jù)中心日常運(yùn)維管理工作;
崗位要求:
1. 深入了解HPC技術(shù)架構(gòu)及原理,特別是HPC任務(wù)調(diào)度機(jī)制和安全策略,熟悉相關(guān)網(wǎng)絡(luò)和存儲(chǔ)解決方案,有相關(guān)工作經(jīng)驗(yàn)。本科以上學(xué)歷。
2. 熟悉Linux系統(tǒng)運(yùn)維,能熟練使用常用命令和工具
3. 熟悉服務(wù)器硬件維護(hù),有服務(wù)器/存儲(chǔ)硬件維護(hù)相關(guān)工作經(jīng)驗(yàn)
4. 具備基礎(chǔ)網(wǎng)絡(luò)知識(shí),能進(jìn)行基本的網(wǎng)絡(luò)故障排錯(cuò)
5. 熟悉Nagios、Grafana、Prometheus、ELK等監(jiān)控告警系統(tǒng)
6. 了解Ansible自動(dòng)化工具和Git代碼管理
7. 具備一定水準(zhǔn)的Python和Bash Shell編程能力
8. 有HPC運(yùn)維經(jīng)驗(yàn),了解Sge、Slurm等作業(yè)調(diào)度器優(yōu)先
9. 精通數(shù)據(jù)中心整體系統(tǒng)的設(shè)備選型、工程驗(yàn)收和運(yùn)行維護(hù)