崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)硬件設(shè)備及配套系統(tǒng)網(wǎng)絡(luò)的安裝調(diào)試;
2、負(fù)責(zé)網(wǎng)絡(luò)設(shè)備的維護、管理、故障排除等日常工作;
3、負(fù)責(zé)網(wǎng)絡(luò)設(shè)備及監(jiān)控系統(tǒng)的日志分析;
4、檢查網(wǎng)絡(luò)安全漏洞,并能提出解決方案及時修復(fù);
5、上級領(lǐng)導(dǎo)臨時安排的其他工作。
崗位要求:
1、精通底層基礎(chǔ)設(shè)施(硬件、網(wǎng)絡(luò)、存儲),尤其是高速網(wǎng)絡(luò)和 GPU;
2、深入理解分布式深度學(xué)習(xí)訓(xùn)練原理和工具(PyTorch, DeepSpeed, Megatron, NCCL),特別是混合并行和優(yōu)化技術(shù)(ZeRO, AMP);
3、具備強大的工程實踐能力(監(jiān)控、日志、自動化運維、調(diào)試、性能調(diào)優(yōu));
4、了解目標(biāo)模型(DeepSeek)的具體需求和特性;
5、具備團隊協(xié)作和解決復(fù)雜問題的能力。