崗位職責(zé):
- 主導(dǎo)超大規(guī)模AI數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)設(shè)計與實施,包括高性能網(wǎng)絡(luò)協(xié)議優(yōu)化(如RDMA、RoCE、CXL等)、算網(wǎng)一體架構(gòu)設(shè)計及網(wǎng)絡(luò)虛擬化技術(shù)應(yīng)用;
- 構(gòu)建軟硬件協(xié)同的高性能網(wǎng)絡(luò)解決方案,覆蓋DPU/SmartNIC可編程網(wǎng)絡(luò)開發(fā)、SONiC/P4網(wǎng)絡(luò)協(xié)議棧優(yōu)化;
- 設(shè)計AIDC網(wǎng)絡(luò)性能評估體系,針對網(wǎng)絡(luò)吞吐量、傳輸時延、容錯性等核心指標進行調(diào)優(yōu);
- 制定網(wǎng)絡(luò)運維規(guī)范與容災(zāi)方案,主導(dǎo)Zabbix/Ansible等工具鏈的自動化運維體系建設(shè);
- 研究AI/HPC場景下的網(wǎng)絡(luò)前沿技術(shù)(如量子通信、光互連技術(shù)),推動下一代算力原生網(wǎng)絡(luò)落地。
技能要求:
- 核心技術(shù)能力:
? 精通數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),具備大規(guī)模AI/HPC網(wǎng)絡(luò)(≥10,000節(jié)點)設(shè)計經(jīng)驗;
? 掌握集合通信技術(shù)(NCCL/MPI/Gloo)與擁塞控制算法(DCQCN/UEC)的深度調(diào)優(yōu);
? 熟悉網(wǎng)絡(luò)可編程技術(shù)(P4/DOCA)及智能網(wǎng)卡硬件加速方案;
? 具備Tier標準、ITIL規(guī)范等數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)標準落地經(jīng)驗。 - 工程能力:
? 熟練使用C/C++開發(fā)高性能網(wǎng)絡(luò)組件,5年以上系統(tǒng)級網(wǎng)絡(luò)協(xié)議開發(fā)經(jīng)驗;
? 精通Linux內(nèi)核網(wǎng)絡(luò)模塊調(diào)試,熟悉網(wǎng)絡(luò)性能分析工具(Perf/BPF);
? 掌握TCP/IP協(xié)議棧優(yōu)化及網(wǎng)絡(luò)安全防護體系設(shè)計。
加分項:
? 熟悉深度學(xué)習(xí)框架(PyTorch/TensorFlow)與AI模型訓(xùn)練網(wǎng)絡(luò)需求;
? 具有網(wǎng)絡(luò)碳排放優(yōu)化經(jīng)驗(CUE指標管理);
? 具備團隊管理經(jīng)驗及AI行業(yè)技術(shù)趨勢洞察能力;
? CCIE/HCIE等認證者優(yōu)先
學(xué)歷要求:
? 計算機/通信/電子工程本科及以上學(xué)歷,具備CCIE/HCIE等認證優(yōu)先。