1、 負(fù)責(zé)開發(fā)用于承載大模型的高效訓(xùn)練、推理平臺(tái),并結(jié)合特點(diǎn)進(jìn)行算法與實(shí)現(xiàn)的優(yōu)化;
2、負(fù)責(zé)大模型(CV、NLP、多模態(tài)等方向)技術(shù)方案的實(shí)現(xiàn)和效果評(píng)估,跟進(jìn)前沿AI大模型研究與效果性能調(diào)優(yōu);
3、推進(jìn)分布式訓(xùn)練中的計(jì)算和通信優(yōu)化,充分利用算力,使用大量加速卡探索性能邊界;
4、打破模型的參數(shù)限制,訓(xùn)練百億、千億參數(shù)量級(jí)別的超大模型
崗位要求:
1、熟悉Linux開發(fā)環(huán)境,至少掌握Python、Java、C++等開發(fā)語言中的一種,熟悉Pytorch/TensorFlow/MindSpore/huggingface中的一種;
2、數(shù)學(xué)基礎(chǔ)扎實(shí),熟悉深度學(xué)習(xí)與分布式算法,能夠清晰理解算法基本原理及實(shí)現(xiàn)方法,有大規(guī)模分布式算法相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先;
3、有過深度學(xué)習(xí)平臺(tái)開發(fā)或大模型開發(fā)相關(guān)經(jīng)驗(yàn)者優(yōu)先。