工作地點(diǎn)優(yōu)先蕪湖,天津也可,薪資面談
職位描述:
1. 引領(lǐng)大模型推理性能優(yōu)化:負(fù)責(zé)全球領(lǐng)先的大規(guī)模語(yǔ)言模型(LLM)推理性能優(yōu)化,挑戰(zhàn)世界級(jí)技術(shù)難題,顯著降低推理時(shí)延,提升吞吐量,并大幅降低推理成本,推動(dòng)AI技術(shù)的邊界。
2. 深度參與前沿技術(shù)研發(fā):探索并實(shí)現(xiàn)先進(jìn)的推理優(yōu)化技術(shù),如FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等,確保我們的推理引擎在全球范圍內(nèi)保持技術(shù)領(lǐng)先地位。
3. 跨硬件平臺(tái)的極致優(yōu)化:針對(duì)不同硬件架構(gòu)(如GPU、TPU等),設(shè)計(jì)并實(shí)現(xiàn)高效的推理加速方案,結(jié)合剪枝、量化、分布式推理等技術(shù),最大化硬件利用率,提升系統(tǒng)整體性能。
4. 推動(dòng)AI推理引擎的創(chuàng)新:深入理解并優(yōu)化主流推理引擎(如vLLM、sglang),結(jié)合CUDA/Cutlass等底層開(kāi)發(fā)工具,打造高性能、低延遲的推理框架,為全球用戶提供極致的推理體驗(yàn)。
職位要求:
1. 深厚的模型架構(gòu)理解:熟悉Transformer、LLaMA、DeepSeek等主流大模型架構(gòu),能夠深入理解并優(yōu)化其推理過(guò)程。
2. 前沿推理技術(shù)掌握:精通LLM推理引擎(如vLLM、sglang),熟悉MLA、FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等推理優(yōu)化技術(shù),具備實(shí)際應(yīng)用經(jīng)驗(yàn)。
3. 豐富的推理優(yōu)化經(jīng)驗(yàn):具備AI模型推理優(yōu)化的實(shí)戰(zhàn)經(jīng)驗(yàn),熟悉剪枝、量化、分布式推理等加速技術(shù),能夠根據(jù)不同場(chǎng)景和硬件平臺(tái)進(jìn)行針對(duì)性優(yōu)化。
4. 硬件與底層開(kāi)發(fā)能力:熟悉GPU硬件架構(gòu),具備CUDA/Cutlass開(kāi)發(fā)與優(yōu)化經(jīng)驗(yàn),能夠深入底層進(jìn)行性能調(diào)優(yōu)。
5. 全球視野與創(chuàng)新精神:具備強(qiáng)烈的技術(shù)好奇心與創(chuàng)新意識(shí),愿意挑戰(zhàn)世界級(jí)難題,推動(dòng)AI推理技術(shù)的全球突破。