1、崗位職責:
負責數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載(ETL)全流程開發(fā)與優(yōu)化,對接業(yè)務系統(tǒng)數(shù)據(jù)源(如業(yè)務庫、日志、API 等),設計全量 / 增量抽取策略,定義數(shù)據(jù)清洗、脫敏、標準化規(guī)則,保障數(shù)據(jù)一致性、準確性與時效性。
維護 MySQL、Oracle、PostgreSQL 等主流關系型數(shù)據(jù)庫,負責表結(jié)構設計、索引優(yōu)化、SQL 查詢性能調(diào)優(yōu),處理千萬級以上數(shù)據(jù)量的存儲與查詢需求,解決數(shù)據(jù)庫運維中的性能瓶頸與異常問題。
基于Hadoop 生態(tài)(HDFS、YARN)、Spark(Spark SQL/PySpark)、Hive、HBase 等大數(shù)據(jù)技術,處理 TB/PB 級海量數(shù)據(jù),完成數(shù)據(jù)聚合、分析及業(yè)務指標計算,支撐大數(shù)據(jù)應用場景落地。
參與數(shù)據(jù)倉庫搭建,結(jié)合業(yè)務需求進行數(shù)據(jù)建模(維度建模、關系建模),設計星型 / 雪花模型,劃分業(yè)務主題域(如用戶、訂單、商品),搭建數(shù)據(jù)分層架構(ODS、DW、DM),支撐數(shù)據(jù)分析與業(yè)務決策。
編寫 Shell 腳本實現(xiàn) ETL 任務自動化調(diào)度、數(shù)據(jù)備份、日志清理等運維工作;使用 Python(Pandas/NumPy/PySpark)開發(fā)數(shù)據(jù)處理腳本,完成批量數(shù)據(jù)校驗、異常數(shù)據(jù)修復及跨系統(tǒng)數(shù)據(jù)交互。
配合數(shù)據(jù)分析師、業(yè)務團隊梳理數(shù)據(jù)需求,提供數(shù)據(jù)支持;監(jiān)控 ETL 任務運行狀態(tài),及時排查任務失敗、數(shù)據(jù)延遲等問題,建立任務監(jiān)控與告警機制,保障數(shù)據(jù)鏈路穩(wěn)定。
2. 崗位要求:
關系型數(shù)據(jù)庫能力:熟練操作 MySQL、Oracle、PostgreSQL 等至少 2 種主流關系型數(shù)據(jù)庫,具備復雜 SQL(多表關聯(lián)、子查詢、窗口函數(shù))編寫能力,掌握表結(jié)構設計、索引優(yōu)化、分區(qū)表配置及數(shù)據(jù)庫性能調(diào)優(yōu)技巧,能處理千萬級數(shù)據(jù)量的存儲與查詢場景。
大數(shù)據(jù)技術能力:熟悉 Hadoop 生態(tài)體系(HDFS、YARN、MapReduce),掌握 Spark(Spark SQL、PySpark)、Hive(HQL 編寫、分區(qū)優(yōu)化)、HBase 等大數(shù)據(jù)工具的使用,能基于大數(shù)據(jù)框架完成海量數(shù)據(jù)清洗、轉(zhuǎn)換、聚合,有 TB/PB 級數(shù)據(jù)處理經(jīng)驗者優(yōu)先。
ETL 全流程能力:精通 ETL 工藝全流程,理解數(shù)據(jù)抽?。ㄈ?/ 增量)、轉(zhuǎn)換(清洗、脫敏、邏輯計算)、加載(全量覆蓋 / 增量追加)的核心邏輯;熟悉至少 1 種 ETL 工具(如 Kettle、DataX、Flink CDC、Talend),能解決 ETL 過程中的數(shù)據(jù)一致性、異常重試、任務依賴等問題,有 ETL 調(diào)度工具(Airflow、Azkaban)使用經(jīng)驗者優(yōu)先。
數(shù)據(jù)建模能力:具備基礎數(shù)據(jù)建模能力,熟悉維度建模、關系建模方法論,能結(jié)合業(yè)務場景設計星型 / 雪花模型,完成業(yè)務主題域劃分、指標定義及數(shù)據(jù)倉庫分層(ODS→DW→DM)設計,理解業(yè)務數(shù)據(jù)與指標邏輯的對應關系。
腳本與 Linux 能力:熟練掌握 Linux 操作系統(tǒng)常用命令(文件管理、進程監(jiān)控、權限配置、日志分析);能獨立編寫 Shell 腳本實現(xiàn)自動化任務(如 ETL 任務調(diào)度、數(shù)據(jù)備份、批量執(zhí)行 SQL);熟練使用 Python 進行數(shù)據(jù)處理,掌握 Pandas、NumPy、PySpark 等庫,能開發(fā)腳本解決數(shù)據(jù)校驗、批量處理需求。
3、經(jīng)驗與學歷要求:
本科及以上學歷,計算機、大數(shù)據(jù)、統(tǒng)計學、信息管理等相關專業(yè)優(yōu)先;3-6 年及以上數(shù)據(jù)開發(fā) / ETL 相關工作經(jīng)驗,有數(shù)據(jù)倉庫搭建、企業(yè)級數(shù)據(jù)鏈路建設經(jīng)驗者優(yōu)先;有金融、電商、零售等行業(yè)數(shù)據(jù)處理經(jīng)驗者優(yōu)先(根據(jù)公司業(yè)務調(diào)整)。
4、薪酬:8k--25k