崗位職責:
結(jié)合業(yè)務(wù)需求,訓(xùn)練垂域模型,pt、sft、rlhf
1. 基于業(yè)務(wù)場景,提煉模型訓(xùn)練數(shù)據(jù);
2. 跟蹤業(yè)內(nèi)進展,并將其應(yīng)用于實際模型訓(xùn)練;
3. 修改訓(xùn)練代碼,加速模型訓(xùn)練流程;
任職要求:
1. 熟悉常見的模型訓(xùn)練算法,包括但不限于:DPO、GRPO等;
2. 熟悉各類模型并行訓(xùn)練算法,熟悉模型訓(xùn)練全流程;
3. 熟悉RLHF訓(xùn)練框架(如 verl),有修改、優(yōu)化、加速訓(xùn)練代碼經(jīng)驗;