時序數據庫（II）-預處理

大數據物聯網百度雲 Spark 中國大數據 2017-05-20

物聯網領域近期如火如荼，互聯網和傳統公司爭相佈局物聯網。作為物聯網領域數據存儲的首選時序數據庫也越來越多進入人們的視野，早在2016年7月，百度雲在其天工物聯網平臺上發佈了國內首個多租戶的分佈式時序數據庫產品TSDB。前文提到時序數據是一個寫多讀少的場景，對時序數據庫以及數據存儲方面做了論述，數據查詢和聚合運算同樣是時序數據庫必不可少的功能之一。如何支持在秒級對上億數據的查詢分組聚合運算成為了時序數據庫產品必須要面對的挑戰。

本文會從時序數據庫的查詢以及聚合運算角度展開，最後從如何解決時序數據的查詢問題入手深入分析。

1. 時序數據的查詢

用戶對時序數據的查詢場景多種多樣，總的來說時序數據的查詢分為兩種：原始數據的查詢和時序數據聚合運算的查詢。前者是對歷史高精度時序數據的查詢，查詢結果粒度太細，並不利於發現其規律性，趨勢性；也不適合展現給用戶，主要用於大數據分析的元數據。後者主要用來對數據做分析，例如dashboard等UI工具使用聚合查詢展示數據分析結果。通常數據分析的查詢範圍廣，查詢的數據量大，從而導致查詢的延時比較高，而往往分析工具又要求查詢延時低，大數據量低延時是時序數據查詢面臨的主要問題，本文主要探討聚合分析查詢的優化。

2. 時序數據的查詢的優化

從前文可瞭解到，時序數據的存儲主要包含單機和分佈式存儲。時序數據根據分片規則（通常使用metric+tags+時間範圍），將分片存儲在單機或者分佈式環境中。聚合運算查詢時，根據查詢條件查詢所有的數據分片，所有的分片按照時間戳合併形成原始數據結果，當查詢條件包含聚合運算時，會根據採樣窗口對數據進行聚合運算，最後返回運算結果。

數據聚合運算查詢延時的計算可以粗略的描述如下：

聚合運算查詢：數據分片的查詢合併 + 聚合運算 + 數據返回

圖1 時序數據查詢流程

針對聚合運算的查詢可以從兩個方向進行優化：分佈式聚合查詢和數據預處理。分佈式聚合查詢通過併發使用多個節點並行查詢和計算來提高性能，減少了分片查詢以及聚合運算的時間，保證了時序數據分析結果秒級返回。而數據預處理則是通過空間換時間的思路，將數據根據查詢規則預先計算，查詢時直接返回少量的聚合運算結果來保證更低的查詢延時。時序數據庫可以分別從二種方式進行查詢優化，本文之後主要針對數據預處理做深入分析。

3. 時序數據查詢的預處理

時序數據的預處理根據實時性可以分為二種：批處理和流式處理。

l 批處理

批處理是使用pull的方式查詢時序原始數據，預先進行聚合運算獲取數據結果寫入時序數據庫，當進行聚合查詢時直接返回預處理後數據結果。時序數據庫定期輪詢規則，根據採樣窗口創建預處理任務，任務根據規則信息形成多個任務隊列。隊列內任務順序執行，隊列間任務併發執行，多任務隊列保證了多租戶對計算資源共享。

圖2 批處理

預處理任務的執行主要分為二種環境：單機環境以及分佈式環境。

單機環境：任務調度模塊邏輯相對簡單，調度模塊通過進程內消息或者輪詢多個任務隊列，順序獲取隊列內未執行的預處理任務，提交任務到線程池執行。

分佈式環境：多個計算節點共享任務隊列，對預處理任務進行搶佔執行，能夠支持計算節點的線性擴展，分佈式環境可以包含多種實現。

a) 消息隊列方式：時序數據庫輪詢預處理規則，創建預處理任務時，添加任務消息到消息隊列，同時設置消息分組，相同的規則使用相同的分組。計算節點消費任務消息，組內消息順序執行，組外消息併發執行。

b) 一致性hash方式：多個計算節點通過一致性hash算法，形成一個一致性hash環，預處理任務根據分片算法（使用規則信息）將相同的任務隊列提交到相同的計算節點，保證任務隊列順序執行。

c) 調度模塊方式：由調度模塊統一進行任務隊列的調度，相同規則任務提交到相同的計算單元，保證其順序執行。

l 流式處理

流式處理框架同樣能夠支持對數據流做聚合運算，不同於批處理方式，時序數據需要路由到流式處理框架例如Spark，Flink等，當數據時間戳到達採樣窗口時，在內存中實時計算，寫入時序數據庫。

圖3 流式預處理

流式處理屬於分佈式內存計算，相同的採樣窗口數據需要在同樣的計算單元中聚合運算，因此需要將相同數據流映射到相同的計算單元，數據流任務調度是流式處理需要解決的核心問題。

a）中心化的調度：由調度模塊統一調度數據流，將相同的數據流使用同一的計算單元處理。

b) 一致性hash方法：通過使用分片(使用規則信息)，將相同的預處理規則數據流映射到相同的計算單元來保證內存數據計算的正確性。

批處理的優點是支持對歷史時序數據的處理，實現簡單。但是批處理具有查詢數據量大，非實時的缺點。流式處理的優點是數據實時計算，無需查詢原始數據。但是流式處理需要特殊處理寫入的歷史數據，也需要處理運算過程中崩潰的計算單元。批處理和流程處理各有優缺點，通常時序數據庫需要結合二種方式對數據進行預處理。

4. 真實用例

l OpenTsdb時序數據庫

OpenTsdb當前最新版本並不支持數據預處理，但是在OpenTsdb的RoadMap中可以看到，在OpenTsdb2.4以及後續版本中準備使用新的API來支持，主要使用批處理以及流式處理。

批處理：根據採樣窗口，定時查詢原始數據進行聚合運算，存儲計算結果。

流式處理：結合Spark、Flink等流式處理框架，對時序數據流做實時計算。

OpenTsdb期望預處理能夠提供用戶更加高效的查詢體驗，同時解決大數據查詢計算時系統崩潰的問題。

l InfluxDB時序數據庫

InfluxDB支持CQ(continous query)的功能，CQ通過定期pull原始時序數據進行計算，將計算結果存儲在內部特殊metric中。用戶通過創建CQ來實現對數據預處理，InfluxDB的CQ主要參數包含：聚合函數名稱、儲存metric的名稱、查詢度量的名稱、採樣時間窗口以及標籤索引。

SELECT <function[s]> INTO <destination_measurement> FROM <measurement> [WHERE <stuff>] GROUP BY time(<interval>)[,<tag_key[s]>]

5. 結束語

使用預處理能有效的降低採樣聚合函數查詢對系統的瞬時查詢壓力，實現數據計算一次多次查詢，同時也能有效的降低查詢延遲，提高用戶體驗。百度天工時序數據庫平臺也早在2016年末就推出了預處理功能，滿足了物可視對聚合查詢高頻和低時延的需求。

但是對大量原始數據的查詢，時序數據庫依然會遇到性能、高延時等挑戰，後續文章將會對此做深入分析。

相關推薦

'簡單易用高性能的時序數據庫 pinusdb'

"松果時序數據庫(pinusdb)松果時序數據庫是一個開源的時間序列數據庫。以簡單、易用、高性能為目標，解決中小規模物聯網場景設備數據存儲，查詢。松果時序數據庫服務僅包含大約3萬行C++代碼，雖然代碼量少但也提供了豐富的功能、較高的性能。性能在i3-7100， 8G 內存...

數據庫 Windows Server Linux Windows 松球 C語言物聯網 2019-09-17

'海量數據AtlasDB：把“數據庫好用”這件事做到極致'

"導語：堅守初心、不辱使命，近期海量數據研發的企業級數據庫AtlasDB獲得了市場的普遍關注。這款以“好用”著稱的國產數據庫產品，不僅承載著海量數據公司對技術創新的堅持和投入，更凝結著一群擁有“工匠之心”的數據庫人對用戶的無限敬意！當前，我國在信息技術應用、大數據分析等技術...

數據庫技術操作系統大數據軟件 MySQL 中央處理器人工智能交通人生第一份工作 2019-09-13

'NoSQL究竟是什麼？瞭解為什麼NoSQL數據庫不是傳統數據庫的對手'

"近年來，我們目睹了NoSQL的興起，並觀察它在各種應用中的應用。本文旨在對SQL和NoSQL技術進行客觀比較，並嘗試澄清一些不明確的方面，以幫助人們熟悉地選擇後端。我對NoSQL的態度一切都有時間，2014年我開始使用NoSQL。也許我遲到了，但我之前的項目需求完全被傳統...

NoSQL 數據庫 SQL 技術數據挖掘 Cassandra 數據結構軟件 Neo4J 設計大數據 CouchDB MemcacheDB MongoDB 文化人生第一份工作 SaaS 文章 2019-09-12

'2019年最受程序員歡迎的10大非關係型（NoSQL）數據庫'

"數據庫是一組信息的集合，這些信息被組織起來以便於訪問、管理和更新。在開始介紹最流行的NoSQL數據庫之前。您必須瞭解NoSQL數據庫。大多數程序員不知道它代表什麼。它的全稱是Not Only SQL。在瞭解了NoSQL數據庫之後，我們將介紹2019年最受程序員歡迎的NoS...

數據庫 NoSQL SQL 程序員 Cassandra MongoDB Redis JavaScript HBase Neo4J Memcached JSON AllegroGraph BigTable Riak CouchDB 數據結構 OrientDB BSD Facebook 設計 MapReduce C語言 Apache 亞馬遜公司物聯網地理 Google 2019-08-30

'All in Cloud時代，下一代數據庫技術路在何方？'

"科技雲報道原創。過去二十年，傳統數據庫幾乎壟斷IT市場，Gartner關於全球數據庫市場份額的報告指出，目前全球數據庫市場份額大約為400億美元，傳統數據庫一度擁有超過80%的市場份額。但近幾年，曾風靡業界的數據庫市場份額逐年下降，根據第三方機構顯示，到2021年，傳統數...

數據庫雲計算技術 Microsoft SQL Server SQL 高德納集團 MongoDB IaaS NoSQL 微軟物聯網 NewSql PostgreSQL 阿里雲計算 MySQL IBM 移動互聯網 SAP公司 Redis Azure 2019-08-08

'大牛幫你入門數據庫，一文讀懂SQL的9大基礎概念，附乾貨'

"今天我們就來聊一聊關係數據庫的那些事！01數據在數據庫中如何存儲？01 層次數據庫層次數據庫的特點：數據之間存在著像樹一樣的層級關係層次數據庫的缺點：由於數據縱向發展，難以建立橫向關係，數據可能會重複出現，不方便維護02 網狀數據庫網狀數據庫的特點：數據之間存在著像網一樣...

數據庫 Microsoft SQL Server SQL 跳槽那些事兒 Java Python 人工智能大數據信用卡 2019-08-08

'宜信技術實踐｜關係型數據庫全表掃描分片詳解'

"摘要：本文從數據分片的角度出發，具體介紹DBus在數據採集的過程中，運用了什麼樣的分片策略和分片原理，以及過程中遇到的問題及解決方案。導讀：數據總線（DBus）專注於數據的實時採集與實時分發，可以對IT系統在業務流程中產生的數據進行匯聚，經過轉換處理後成為統一JSON的數...

數據庫宜信技術大數據 MySQL JSON 設計 2019-08-05

'中建材信息助力“2019達夢數據庫市場推介會”成都站成功舉辦'

"近日，以“數據重塑未來，攜手共建生態”為主題的2019達夢數據庫市場推介會在成都正式拉開序幕。本次推介會由中建材信息技術股份有限公司（以下簡稱：中建材信息）與武漢達夢數據庫有限公司（以下簡稱：達夢公司）聯合舉辦，詳細介紹了達夢公司在數據庫、大數據等方面的產品與解決方案，並...

數據庫中國建築材料集團建築材料技術大數據成都人生第一份工作雲計算可視化技術 2019-08-05

'LeetCode基礎算法題第130篇：反轉字符串 II'

"技術提高是一個循序漸進的過程，所以我講的leetcode算法題從最簡單的level開始寫的，然後> 到中級難度，最後到hard難度全部完。目前我選擇C語言，Python和Java作為實現語言，因為這三種語言還是比較典型的。由於篇幅和> 精力有限，其他語言的實現...

算法 Python C語言 Java 大數據技術人工智能文章操作系統 2019-08-03

'Hive精華問答 | Hive和傳統數據庫有什麼不同？'

"Hive是一個數據倉庫基礎工具，它是建立在Hadoop之上的數據倉庫，在某種程度上可以把它看做用戶編程接口（API），本身也並不存儲和處理數據，依賴於HDFS存儲數據，依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴於HDFS存儲數據，依賴MR處理數...

數據庫 Hive Hadoop 大數據 HDFS 可視化技術 Spark MapReduce 2019-07-30

'數據庫運維：百億級數據處理優化？'

"百億級數據處理優化最近在做大數據處理時，遇到兩個大表 join 導致數據處理太慢（甚至算不出來）的問題。我們的數倉基於阿里的 ODPS，它與 Hive 類似，所以這篇文章也適用於使用 Hive 優化。處理優化問題，一般是先指定一些常用的優化參數，但是當設置參數仍然不奏效的...

數據庫 SQL Hive 大數據文章讀書 2019-07-23

'白話大數據：數據預處理之術'

"數據預處理是數據化工作中非常重要的一部分，但是很多人往往會對如何處理感到迷惑。而本文的作者就為我們仔細介紹瞭如何進行數據預處理。隨著互聯網流量紅利的逐漸消退，各公司之間的競爭形勢日益嚴峻，企業正在不斷尋找提高利潤率、降低成本、提高產出價值的有效方法，而數據化經營已經逐漸成...

大數據技術人生第一份工作戰鬥機產品經理第二次世界大戰 2019-07-20

一場替換傳統數據庫的行動正在全球範圍悄然進行

隨著全球各大科技巨頭的競相加入，開源軟件技術已經活躍在各個信息技術領域當中。其中，大數據生態成為開源技術的直接受益者。開源技術適用於龐雜的數據管理系統，帶...

數據庫大數據技術開源軟件軟件 Netflix MapReduce 阿里雲計算 Docker Spark PostgreSQL 微軟 Linux Hadoop Presto 設計華為公司極客 Hive OpenStack 保險 Storm 人生第一份工作 2019-07-11

大數據預處理七步法（二）：數據清洗

1.缺失值的處理：①忽略元組：若有多個屬性值缺失或者該元祖剩餘屬性值使用價值較小時，應選擇放棄②人工填寫：該方法費時，數據龐大時行不通③全局常量填充：方法...

大數據算法 2019-07-11

早在公元前五百年，孫子就參透了數據庫分區的真諦

作者介紹宇文湛泉，現任金融行業核心業務系統DBA，主要涉及Oracle、DB2、Cassandra等數據庫開發工作。數據庫分區，我覺得是一個稱得上“偉大”...

數據庫 MySQL DBA Microsoft SQL Server SQL 技術孫子兵法金融設計模式 Cassandra 硬件設計人生第一份工作中央處理器大數據騰訊上海 2019-07-06

隔空對話丨大佬解讀如何玩轉數據庫“走出去”？

關注並在對話框回覆“搜索”點擊鏈接後即可按關鍵詞獲取全部資訊賈子凡丨記者雒文佳丨編輯隨著全球數字化、網絡化的深度發展與信息大數據時代的到來，出版業逐步進入...

數據庫技術生物技術航天技術文化大數據讀書上海大學藝術文學人生第一份工作哈佛大學斯坦福大學 2019-07-01

跨越數據庫發展鴻溝，談分佈式數據庫技術趨勢

作者介紹王濤，巨杉數據庫聯合創始人、CTO與總架構師。曾是北美IBM DB2 Lab核心研發成員，負責DB2 核心引擎研發，還曾參與世界第一款分佈式數據庫...

數據庫技術銀行 DevOps 金融 IBM 大數據虛擬機歷史硬件 2019-06-30

有性侵前科者，這些單位拒絕錄用！寧波鄞州建立數據庫，錄入相關違法人員信息309862條

來源：律師來了 2018年10月，最高檢向教育部發出了“一號檢察建議”，該建議對完善教師准入制度、健全完善預防性侵害的制度機制等提出了要求。2019年2...

性侵犯數據庫寧波不完美媽媽上海浙江省讀書新澤西州刑法跳槽那些事兒大數據招聘博物館 2019-06-29

MongoDB挑戰傳統數據庫：非結構化數據庫的迭新不容小覷

相比甲骨文中國在中國市場的裁員風波，同為數據庫服務的MongoDB顯得更為樂觀。“MongoDB是中國開發者最喜歡用的一個數據庫。”MongoDB全球渠道...

數據庫 MongoDB 甲骨文公司開源軟件軟件 GNU 技術微軟物聯網上海 IBM 雲計算歷史 Linux 眾包 EMC 金融大數據 2019-06-26

基於PG研發的國產數據庫--華為最新推出的GaussDB

概述最近一個月，華為公司面向全球發佈了人工智能原生(AI-Native)數據庫GaussDB和業界性能的分佈式存儲FusionStorage 8.0，將多...

數據庫華為公司人工智能技術電信硬件 SQL ARM X86 PostgreSQL 設計並行計算大數據 LLVM 軟件 HDFS 2019-06-25

推薦中...