【崗位職責(zé)】
1.全面負(fù)責(zé)人工智能平臺的日常運維工作,包括平臺的部署、配置、監(jiān)控、調(diào)優(yōu)及故障處理等,確保平臺穩(wěn)定、高效運行;
2.建立和完善平臺運維管理制度、流程和規(guī)范,制定應(yīng)急預(yù)案,提高平臺的可靠性和可用性;
3.監(jiān)控人工智能平臺的運行狀態(tài)、性能指標(biāo)及資源使用情況,及時發(fā)現(xiàn)并解決潛在問題,預(yù)防故障發(fā)生;
4.負(fù)責(zé)基礎(chǔ)服務(wù)相關(guān)硬件設(shè)備(服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等)和軟件系統(tǒng)的維護與管理,確保其正常運行;
5.組織進(jìn)行平臺的升級、補丁安裝及版本更新工作,保障平臺功能的持續(xù)優(yōu)化和安全;?
6.與開發(fā)團隊、運營團隊等保持密切溝通協(xié)作,協(xié)助解決平臺開發(fā)、使用過程中的技術(shù)問題。?
【任職條件】
1.計算機科學(xué)、電子工程、高性能計算相關(guān)專業(yè)碩士及以上學(xué)歷。
2.具有5年以上系統(tǒng)運維經(jīng)驗,其中至少2年以上人工智能平臺或大規(guī)模分布式系統(tǒng)運維管理經(jīng)驗。?
3.有云計算、大數(shù)據(jù)平臺運維經(jīng)驗者優(yōu)先。?
4.熟悉人工智能平臺的架構(gòu)和運行原理,掌握相關(guān)運維技術(shù)和工具;精通 Linux 操作系統(tǒng)、數(shù)據(jù)庫(如 MySQL、MongoDB 等)、網(wǎng)絡(luò)技術(shù)及存儲技術(shù);熟悉容器技術(shù)(如 Docker、Kubernetes)、虛擬化技術(shù)及自動化運維工具(如 Ansible、Jenkins 等);具備較強的故障排查和問題解決能力,能快速響應(yīng)并處理平臺突發(fā)故障。
5.工作認(rèn)真負(fù)責(zé),嚴(yán)謹(jǐn)細(xì)致,具有較強的責(zé)任心和抗壓能力;具備良好的溝通協(xié)調(diào)能力和團隊合作精神,能與各部門順暢協(xié)作;具有持續(xù)學(xué)習(xí)的意識和能力,關(guān)注行業(yè)新技術(shù)和發(fā)展趨勢。