崗位職責:
1、負責公司大模型推理服務(wù)的架構(gòu)設(shè)計、開發(fā)與性能優(yōu)化,支撐數(shù)字分身產(chǎn)品的高并發(fā)、低延遲需求。
2、基于 SGLang、vLLM等主流推理框架,進行深度定制與優(yōu)化,實現(xiàn)動態(tài)批處理、連續(xù)批處理(Continuous Batching)、PagedAttention等高級特性。
3、參與大模型訓(xùn)練流程的搭建與維護,優(yōu)化訓(xùn)練效率與穩(wěn)定性,支持模型的快速迭代。
4、與AI Agent和算法團隊協(xié)作,將優(yōu)化后的模型高效部署到生產(chǎn)環(huán)境,并提供穩(wěn)定、可靠的API服務(wù)。
任職要求:
1、 計算機科學(xué)、軟件工程或相關(guān)專業(yè)碩士及以上學(xué)歷,3年以上相關(guān)領(lǐng)域開發(fā)經(jīng)驗。
2、精通Python/C++,具備扎實的計算機系統(tǒng)和算法基礎(chǔ)。
3、有SGLang、vLLM、TensorRT-LLM等推理框架的實戰(zhàn)開發(fā)或深度優(yōu)化經(jīng)驗。
4、熟悉GPU編程(CUDA),了解NVIDIA生態(tài)(如cuBLAS, cuDNN),有高性能計算優(yōu)化經(jīng)驗。
5、熟悉至少一種深度學(xué)習(xí)框架(如PyTorch),了解主流大模型架構(gòu)(如Transformer, MoE)者優(yōu)先