1、負責(zé)根據(jù)客戶算力使用場景和需求,提供算力整體解決方案,包含硬件選型、網(wǎng)絡(luò)設(shè)計、平臺架構(gòu)、模型部署等。
2、負責(zé)平臺架構(gòu)規(guī)劃,主導(dǎo)算力平臺整體架構(gòu)設(shè)計,結(jié)合業(yè)務(wù)需求制定中長期技術(shù)路線圖,涵蓋算力資源、算力調(diào)度、存儲架構(gòu)、網(wǎng)絡(luò)拓撲等核心模塊,確保架構(gòu)具備高擴展性、高可用性及成本合理性。?
3、負責(zé)技術(shù)方案設(shè)計與落地,智算核心技術(shù)選型(如算力選型、虛擬化、分布式訓(xùn)練框架、AI 模型優(yōu)化工具等),解決大模型訓(xùn)練中算力集群調(diào)度、數(shù)據(jù)并行 / 模型并行優(yōu)化等架構(gòu)級難題,保障 AI 業(yè)務(wù)高效運行。
4、負責(zé)智算技術(shù)創(chuàng)新與預(yù)研,跟蹤智算領(lǐng)域前沿技術(shù)(如存算一體、AI 芯片架構(gòu)、大模型高效訓(xùn)練技術(shù)等),開展技術(shù)預(yù)研與驗證;
5、推動架構(gòu)創(chuàng)新,引入 AI 算力優(yōu)化技術(shù)(如模型壓縮、量化加速),提升智算中心算力利用率與業(yè)務(wù)處理效率。
任職要求:
1、學(xué)歷與專業(yè)背景:計算機科學(xué)、電子工程、數(shù)學(xué)、統(tǒng)計學(xué)、人工智能或相關(guān)領(lǐng)域的本科及以上學(xué)歷。
2、工作經(jīng)驗:擁有8-10年以上工作經(jīng)驗,有三年以上算力相關(guān)工作經(jīng)驗,有大規(guī)模算力集群的規(guī)劃、搭建、運維或優(yōu)化方面的經(jīng)驗。
3、硬件知識:深入了解主流和國產(chǎn)化算力硬件,如 NVIDIA GPU、NPU 等,熟悉其架構(gòu)特性,包括 CUDA、CANN、RDMA 網(wǎng)絡(luò)等。能夠根據(jù)不同的應(yīng)用場景,合理選擇和配置硬件資源,確保算力系統(tǒng)的高效運行。?
4、云計算平臺:精通云計算平臺(如 AWS/Azure/ 阿里云)的算力服務(wù),如彈性計算、容器服務(wù)、Serverless 等。
5、分布式系統(tǒng)與調(diào)度框架:掌握分布式系統(tǒng)原理,熟悉常見的調(diào)度框架,如 Kubernetes、Slurm 等。
6、性能調(diào)優(yōu):具備豐富的性能調(diào)優(yōu)經(jīng)驗,能夠通過并行計算優(yōu)化、內(nèi)存 / 帶寬瓶頸分析等手段,提升算力系統(tǒng)的整體性能。?
7、編程語言:熟練掌握至少一種編程語言,如 Python、C++、Java 等,能夠運用其進行腳本編寫、工具開發(fā)和算法實現(xiàn)。?
8、模型調(diào)優(yōu):熟悉主流大模型原理,熟悉大模型框架,了解PD分離等技術(shù),能夠進行模型部署和算力調(diào)優(yōu)。
9、項目經(jīng)驗:有千卡以上集群管理運營經(jīng)驗者優(yōu)先。具備在大規(guī)模算力項目中擔(dān)任核心角色的能力,能夠從項目的規(guī)劃、實施到交付,全程把控項目進度和質(zhì)量。