【崗位職責(zé)】 1.期刊XML數(shù)據(jù)標(biāo)準(zhǔn)制定與實(shí)施(核心重點(diǎn)) a. 負(fù)責(zé)分析不同標(biāo)準(zhǔn)的期刊XML數(shù)據(jù)(如JATS、BITS、CrossRef等),制定符合我司業(yè)務(wù)需求的內(nèi)部統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。 b. 設(shè)計(jì)并開(kāi)發(fā)強(qiáng)大的XML解析、驗(yàn)證、清洗和轉(zhuǎn)換(ETL/ELT)流程,確保數(shù)據(jù)能準(zhǔn)確映射到目標(biāo)模型。 c. 建立數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則和校驗(yàn)體系,對(duì)入庫(kù)的期刊XML數(shù)據(jù)進(jìn)行自動(dòng)化質(zhì)量檢查和報(bào)告,確保數(shù)據(jù)的完整性、準(zhǔn)確性和一致性。 d. 解決XML數(shù)據(jù)處理中遇到的復(fù)雜技術(shù)問(wèn)題,如處理大型XML文件、解析復(fù)雜嵌套結(jié)構(gòu)、字符編碼問(wèn)題等。 2.數(shù)據(jù)管道與平臺(tái)開(kāi)發(fā)(通用數(shù)據(jù)工程師職責(zé)) a. 設(shè)計(jì)、構(gòu)建和維護(hù)穩(wěn)定、可擴(kuò)展的數(shù)據(jù)管道,負(fù)責(zé)期刊數(shù)據(jù)從采集、處理到存儲(chǔ)的全鏈路。 b. 管理和優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)湖中相關(guān)數(shù)據(jù)模型,確保其能滿足下游業(yè)務(wù)(如檢索、推薦、分析)的需求。 c. 與數(shù)據(jù)科學(xué)家和分析師協(xié)作,為其提供高質(zhì)量、易用的數(shù)據(jù)集合。 3. 標(biāo)準(zhǔn)維護(hù)與協(xié)作 a. 持續(xù)跟蹤學(xué)術(shù)出版行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)演進(jìn),并據(jù)此優(yōu)化內(nèi)部標(biāo)準(zhǔn)和處理流程。 b. 與內(nèi)容獲取、產(chǎn)品經(jīng)理和研發(fā)團(tuán)隊(duì)緊密協(xié)作,理解業(yè)務(wù)需求,并將其轉(zhuǎn)化為技術(shù)方案。 c. 編寫(xiě)清晰的技術(shù)文檔,包括數(shù)據(jù)標(biāo)準(zhǔn)說(shuō)明書(shū)、數(shù)據(jù)處理流程說(shuō)明和系統(tǒng)設(shè)計(jì)文檔。 【任職要求】 1. 工作經(jīng)驗(yàn) a. 學(xué)歷要求:碩士以上學(xué)歷(211,985,雙一流院校優(yōu)先),計(jì)算機(jī)及相關(guān)專(zhuān)業(yè)優(yōu)先 b. 3年以上數(shù)據(jù)工程師或相關(guān)領(lǐng)域工作經(jīng)驗(yàn)。 c. 必須具備扎實(shí)的XML/JSON等結(jié)構(gòu)化數(shù)據(jù)處理經(jīng)驗(yàn),熟悉XPath, XSLT, XML Schema (XSD) 等相關(guān)技術(shù)。 d. 擁有構(gòu)建和維護(hù)ETL/ELT數(shù)據(jù)管道的實(shí)戰(zhàn)經(jīng)驗(yàn)。 2.技術(shù)技能: a. 編程語(yǔ)言: 精通 Python 或 Java/Scala,并具備使用其處理XML/JSON數(shù)據(jù)的能力(如使用lxml, ElementTree, BeautifulSoup等庫(kù))。 b. 數(shù)據(jù)存儲(chǔ): 熟悉至少一種關(guān)系型數(shù)據(jù)庫(kù)(如PostgreSQL, MySQL)和一種NoSQL數(shù)據(jù)庫(kù)(如MongoDB)。 c. 大數(shù)據(jù)技術(shù): 熟悉至少一種大數(shù)據(jù)處理框架,如 Spark(優(yōu)先考慮)、Flink,或熟練使用SQL進(jìn)行復(fù)雜數(shù)據(jù)處理。 3.軟技能: a. 對(duì)數(shù)據(jù)質(zhì)量有極高的要求,做事嚴(yán)謹(jǐn)、細(xì)致,有強(qiáng)烈的責(zé)任心。 b. 具備優(yōu)秀的邏輯分析和問(wèn)題解決能力,能獨(dú)立解決復(fù)雜的數(shù)據(jù)問(wèn)題。 c. 具備良好的溝通能力和文檔撰寫(xiě)能力。 4.優(yōu)先考慮條件(加分項(xiàng)) a. 有學(xué)術(shù)出版、數(shù)字圖書(shū)館、知識(shí)服務(wù)等相關(guān)行業(yè)背景,熟悉 JATS 等期刊標(biāo)記標(biāo)準(zhǔn)。 b. 有使用或解析 Elsevier, Springer Nature, Wiley 等大型出版社XML數(shù)據(jù)的經(jīng)驗(yàn)。 c. 有數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量管理或元數(shù)據(jù)管理相關(guān)項(xiàng)目經(jīng)驗(yàn)。