中国僵尸片,亚洲欧美国产另类视频,亚洲精品无码人妻无码,亚洲有码转帖,亚洲欧美精品伊人久久,97精品依人久久久

更新于 9月1日

GPU服務(wù)器二線運(yùn)維工程師

2.5-3.5萬(wàn)
  • 上海浦東新區(qū)
  • 10年以上
  • 碩士
  • 全職
  • 招1人

職位描述

LINUX內(nèi)核調(diào)優(yōu)GPU服務(wù)器運(yùn)維GPU集群系統(tǒng)運(yùn)維服務(wù)器運(yùn)維KubernetesDocker云計(jì)算/大數(shù)據(jù)人工智能計(jì)算機(jī)軟件
崗位職責(zé):
1. 復(fù)雜故障深度診斷
(1) 針對(duì)搭載NVIDIA H100/H800/H200、AMD MI300等高端GPU的服務(wù)器,快速定位并修復(fù)硬件級(jí)故障(如GPU核心損壞、HBM顯存異常、PCIe鏈路中斷),熟練使用示波器、邏輯分析儀等工具進(jìn)行電路級(jí)分析。
(2)處理CUDA環(huán)境崩潰、驅(qū)動(dòng)兼容性沖突等軟件問題,優(yōu)化AI框架(PyTorch/TensorFlow)在多GPU集群中的運(yùn)行穩(wěn)定性。
2. 性能調(diào)優(yōu)與架構(gòu)設(shè)計(jì)
(1) 基于AI大模型訓(xùn)練/推理場(chǎng)景,通過NVLink/NVSwitch配置、NCCL通信優(yōu)化、內(nèi)存帶寬調(diào)優(yōu)(如HBM2E/HBM3帶寬綁定)提升集群算力利用率,目標(biāo)達(dá)成硬件峰值算力的90%以上。
(2) 設(shè)計(jì)混合精度訓(xùn)練方案(FP16/FP8/INT8),結(jié)合Tensor Core特性實(shí)現(xiàn)算子級(jí)優(yōu)化(如Conv/GEMM稀疏化),降低訓(xùn)練能耗比。
3. 云原生集群管理
(1) 主導(dǎo)Kubernetes GPU資源調(diào)度系統(tǒng)的落地,實(shí)現(xiàn)萬(wàn)卡級(jí)集群的故障自愈(如節(jié)點(diǎn)宕機(jī)自動(dòng)遷移、GPU硬件健康狀態(tài)實(shí)時(shí)監(jiān)控),保障訓(xùn)練任務(wù)中斷率低于0.5%。
(2)開發(fā)自動(dòng)化工具鏈(Ansible/Terraform),實(shí)現(xiàn)服務(wù)器固件升級(jí)、驅(qū)動(dòng)部署、日志采集的全流程無(wú)人化。
4. 前沿技術(shù)落地與協(xié)作
(1) 參與Blackwell架構(gòu)GPU(如H200)的預(yù)研測(cè)試,驗(yàn)證其在Transformer模型訓(xùn)練中的性能表現(xiàn),輸出硬件選型建議。
(2) 與芯片設(shè)計(jì)團(tuán)隊(duì)協(xié)作,針對(duì)國(guó)產(chǎn)GPU(如摩爾線程MTT S80)進(jìn)行驅(qū)動(dòng)適配和性能調(diào)優(yōu),構(gòu)建國(guó)產(chǎn)化算力替代方案。
任職要求:
1. 硬件與系統(tǒng)深度經(jīng)驗(yàn)
(1) 5年以上GPU服務(wù)器運(yùn)維或研發(fā)經(jīng)驗(yàn),至少主導(dǎo)過3個(gè)以上H100/A100集群的部署優(yōu)化項(xiàng)目,熟悉GPU散熱設(shè)計(jì)、機(jī)房環(huán)動(dòng)和電源管理(12VHPWR接口兼容性)。
(2) 精通Linux內(nèi)核調(diào)優(yōu)(如NUMA節(jié)點(diǎn)綁定、IRQ親和性),能通過Nsight Compute分析CUDA內(nèi)核性能瓶頸,提出寄存器分配、共享內(nèi)存優(yōu)化方案。
2. 云原生與分布式技術(shù)
(1) 熟練掌握Kubernetes Device Plugin機(jī)制,具備GPU虛擬化(如vGPU)和混部場(chǎng)景下的資源隔離經(jīng)驗(yàn),曾主導(dǎo)過超大規(guī)模集群(5000+節(jié)點(diǎn))的穩(wěn)定性保障工作。
(2) 熟悉InfiniBand網(wǎng)絡(luò)配置(如ConnectX-6/7網(wǎng)卡),能通過OPA驅(qū)動(dòng)優(yōu)化RDMA通信延遲至微秒級(jí),支持分布式訓(xùn)練中的跨節(jié)點(diǎn)數(shù)據(jù)同步。
3. 正向考核適配能力
(1) 具備強(qiáng)結(jié)果導(dǎo)向思維,過往績(jī)效中至少3次超額完成技術(shù)指標(biāo)(如集群GPU利用率提升20%以上、故障恢復(fù)時(shí)間縮短50%)。
(2) 英語(yǔ)流利(CET-6或等同水平),能獨(dú)立對(duì)接海外團(tuán)隊(duì)完成技術(shù)方案落地,適應(yīng)全球數(shù)據(jù)中心的短期出差(年均20%)。
4. 加分項(xiàng)
(1) 持有NVIDIA認(rèn)證CUDA工程師(CCE)或Kubernetes認(rèn)證管理員(CKA)資質(zhì)。
(2) 參與過開源項(xiàng)目(如KubeEdge邊緣計(jì)算、Horovod分布式訓(xùn)練框架)貢獻(xiàn)者優(yōu)先。
崗位亮點(diǎn):
? 接觸全球先進(jìn)的AI算力基礎(chǔ)設(shè)施(如H200 GPU集群)。
? 參與國(guó)家級(jí)算力網(wǎng)絡(luò)建設(shè)項(xiàng)目,與中科院、高校聯(lián)合攻關(guān)核心技術(shù)。
? 扁平化管理架構(gòu),技術(shù)決策直接影響公司戰(zhàn)略方向。
職業(yè)發(fā)展路徑:
? 技術(shù)專家線:高級(jí)工程師→GPU架構(gòu)師→AI基礎(chǔ)設(shè)施總監(jiān)(管理50人+團(tuán)隊(duì))。
? 業(yè)務(wù)融合線:技術(shù)顧問→行業(yè)解決方案專家(覆蓋金融/醫(yī)療/自動(dòng)駕駛/環(huán)保等領(lǐng)域)。

工作地點(diǎn)

浦東新區(qū)上海移動(dòng)臨港IDC數(shù)據(jù)中心

職位發(fā)布者

高女士/人事經(jīng)理

立即溝通
公司Logo京源環(huán)保
江蘇京源環(huán)保股份有限公司(科創(chuàng)板股票代碼:688096)成立于1999年,以“市場(chǎng)領(lǐng)先的,全能型水處理整體解決方案提供商”為定位,專注于工業(yè)水處理領(lǐng)域,主要向大型工業(yè)企業(yè)和工業(yè)園區(qū)提供專業(yè)化的與水環(huán)境相關(guān)的投融資、研發(fā)設(shè)計(jì)、裝備制造、系統(tǒng)集成、工程總承包及水務(wù)運(yùn)營(yíng)等業(yè)務(wù),具有環(huán)保水處理全產(chǎn)業(yè)鏈的綜合服務(wù)能力。公司是高新技術(shù)企業(yè),擁有一支以“江蘇省工程技術(shù)研究中心”、“江蘇省企業(yè)技術(shù)中心”、“江蘇省研究生工作站”為載體的環(huán)保水處理科研技術(shù)隊(duì)伍。公司員工中一半以上為研發(fā)、技術(shù)人員,大多具有豐富的工業(yè)水處理研發(fā)技術(shù)工作經(jīng)驗(yàn)。公司在關(guān)鍵技術(shù)自主開發(fā)的同時(shí),也與清華蘇州環(huán)境創(chuàng)新研究院、中科院生態(tài)環(huán)境研究中心等國(guó)內(nèi)權(quán)威科研機(jī)構(gòu)開展產(chǎn)學(xué)研合作,實(shí)現(xiàn)科研資源最大化整合。公司堅(jiān)持自主創(chuàng)新,現(xiàn)已擁有12項(xiàng)自主核心技術(shù)和98項(xiàng)知識(shí)產(chǎn)權(quán),其中磁混凝技術(shù)、電子絮凝技術(shù)和零排放污水處理技術(shù)被認(rèn)定為“國(guó)際先進(jìn)”技術(shù),“電催化氧化”技術(shù)被認(rèn)定為“國(guó)內(nèi)領(lǐng)先”技術(shù)。公司零排放裝備被江蘇省工業(yè)和信息化廳認(rèn)定為江蘇省首臺(tái)(套)重大裝備。公司是中國(guó)環(huán)保產(chǎn)業(yè)協(xié)會(huì)會(huì)員、中國(guó)環(huán)境科學(xué)學(xué)會(huì)理事單位、南通市環(huán)保產(chǎn)業(yè)協(xié)會(huì)會(huì)長(zhǎng)單位。近年來(lái)公司先后獲得江蘇省服務(wù)型制造示范企業(yè)、江蘇省生產(chǎn)性服務(wù)業(yè)領(lǐng)軍企業(yè)、南通市十大綠色發(fā)展示范民營(yíng)企業(yè)、南通市先進(jìn)集體等榮譽(yù)稱號(hào)。深耕工業(yè)水處理領(lǐng)域二十年來(lái),公司業(yè)務(wù)布局全國(guó),并延伸至“一帶一路”海外市場(chǎng),已在電力、化工、冶金、電鍍、印染、制藥的行業(yè)領(lǐng)域完成超過400個(gè)水處理工程案例。放眼未來(lái),京源將秉承“建設(shè)生態(tài)文明,承擔(dān)社會(huì)責(zé)任”的企業(yè)發(fā)展理念,通過不斷技術(shù)創(chuàng)新和產(chǎn)業(yè)鏈價(jià)值延伸,為中國(guó)的水環(huán)境治理及生態(tài)環(huán)境事業(yè)作出積極貢獻(xiàn),并在全球視野中彰顯中國(guó)環(huán)保行業(yè)的創(chuàng)新力量。
公司主頁(yè)