崗位職責(zé):
1.負(fù)責(zé) AI 算力硬件設(shè)備,包括 智算服務(wù)器、FPGA 集群等的安裝、調(diào)試工作,確保設(shè)備上線初期穩(wěn)定運(yùn)行;
2.負(fù)責(zé)智算平臺(tái)系統(tǒng)的日常運(yùn)維,包括訓(xùn)練平臺(tái)、調(diào)度平臺(tái)等系統(tǒng)平臺(tái)的維護(hù)與監(jiān)控、故障/客訴問題排查及解決;
3.系統(tǒng)應(yīng)用及數(shù)據(jù)的部署;
4.配合開發(fā)人員進(jìn)行系統(tǒng)開發(fā)、實(shí)施,組織開發(fā)過程中的需求討論、變更,跟進(jìn)系統(tǒng)的故障、程序BUG解決進(jìn)度等;
崗位要求:
1.本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè);
2.熟悉linux操作系統(tǒng)命令,具備維護(hù)、配置、優(yōu)化和故障排除能力,和常用ssh工具進(jìn)行部署和聯(lián)調(diào);
3.熟悉nginx、docker等技術(shù)棧,掌握k8s集群管理;
4.了解國產(chǎn)算力服務(wù)器,可獨(dú)立搭建基礎(chǔ)部署環(huán)境;
5.具備豐富的AI平臺(tái)運(yùn)維經(jīng)驗(yàn),熟悉AI模型訓(xùn)練、推理、服務(wù)部署及全生命周期管理。