隨著數據量爆發式增長和數據實時性要求的提升,傳統的數據倉庫與數據湖分離架構在成本、復雜度和時效性上面臨挑戰。騰訊云基于流式計算與存儲技術,創新性地提出了流式湖倉統一存儲(Streaming Lakehouse)的實踐方案,為數據處理和存儲支持服務開辟了全新路徑,助力企業構建高效、實時、統一的數據底座。
一、 流式湖倉統一存儲:架構演進的核心
流式湖倉統一存儲并非簡單的技術疊加,而是對數據存儲、處理與服務模式的深度重構。其核心在于:
- 統一存儲層:以對象存儲(如騰訊云COS)為基礎,構建一個支持海量、多模態數據(結構化、半結構化、非結構化)低成本存儲的統一數據湖。
- 流式入湖:摒棄傳統的批量T+1數據搬運,通過消息隊列(如TDMQ)、數據接入服務(DTS)等,實現業務數據從源頭到數據湖的實時、不間斷流式寫入,確保數據的“新鮮度”。
- 表格式抽象:在原始存儲之上,引入Iceberg、Hudi等開源表格式(或騰訊云自研優化格式),為流式到達的原始數據提供數據庫般的ACID事務、模式演進、時間旅行等管理能力,構成“湖倉”的關鍵特性。
- 統一服務層:在此統一的存儲與表格式之上,同時支持流處理(Flink)、批處理(Spark)、交互式分析(Presto/Trino)以及AI訓練等多種計算引擎的直接分析,實現“一份數據,多種計算”。
二、 數據處理范式的革新
在流式湖倉架構下,數據處理流程被極大簡化和加速:
- 實時ETL與CDC:數據庫的變更數據(CDC)可實時流式入湖,并基于流處理引擎(如騰訊云Oceanus Flink)在湖內直接進行清洗、轉換、打寬,形成可直接服務于分析的實時數倉層。
- 增量處理成為常態:計算任務(無論是分析查詢還是模型訓練)大部分可基于增量數據展開,避免了全量掃描,資源利用率和處理時效性得到數量級提升。
- 流批一體計算:開發人員可以用同一套流處理API(如Flink SQL)同時處理實時流和湖中的歷史批量數據,業務邏輯統一,維護成本降低。
三、 存儲支持服務的關鍵能力
騰訊云在提供底層存儲與計算資源的通過一系列托管服務,降低了流式湖倉的構建與運維復雜度:
- 全托管數據入湖服務:提供從各類數據庫、日志系統、消息隊列到數據湖的一站式、免運維數據實時接入通道,自動處理分庫分表合并、格式轉換等臟活累活。
- 智能數據管理與優化:
- 自動 compaction:后臺自動合并小文件,優化查詢性能。
- 數據生命周期管理:基于策略自動將熱、溫、冷數據分層存儲(如從標準COS到歸檔存儲),優化成本。
- 數據治理與元數據管理:提供統一的數據目錄、血緣追蹤、數據質量監控與敏感數據發現能力。
- 無縫集成的計算引擎服務:提供全托管的流計算Oceanus、彈性MapReduce(EMR)、數據倉庫CDW等服務,這些服務開箱即用地支持從統一湖倉中讀寫數據,用戶無需關心底層集成細節。
- 安全與合規保障:在統一存儲層集成細粒度的權限控制(如Ranger)、數據加密(服務端/客戶端)、網絡隔離(VPC)及審計日志,滿足企業級安全要求。
四、 實踐價值與場景
騰訊云流式湖倉統一存儲實踐已在泛互聯網、金融、零售等行業落地,其價值凸顯于:
- 實時數據中臺:支撐實時大屏、實時推薦、風控監控等對數據延遲要求秒級甚至毫秒級的場景。
- 一體化數據分析:為BI報表、即席查詢、數據科學探索提供一致、最新的數據視圖,消除數據孤島。
- AI工程化:為特征工程和模型訓練提供海量、統一且持續更新的數據源,加速AI迭代。
###
騰訊云流式湖倉統一存儲實踐,通過將流式數據管道、統一低成本存儲與現代化表格式深度融合,并輔以強大的托管數據服務,成功構建了面向未來的數據處理與存儲支持體系。它不僅解決了數據時效與成本效率的平衡難題,更通過統一的服務接口,讓數據能夠更流暢、更自由地賦能業務創新,成為企業數字化轉型進程中堅實而敏捷的數據基礎設施。