三秒搞定PB級大數據的查詢

大數據 NoSQL JSON HBase 卡弗卡大數據 2017-05-17

Drill是用於大數據挖掘的Apache開源SQL查詢引擎。 從一開始drill的設計就支持來自現代大數據應用程序的半結構化和快速演進的數據的高性能分析,同時仍然提供行業標準查詢語言的ANSI SQL的熟悉程度和生態系統。 Drill提供與現有Apache Hive和Apache HBase部署的即插即用集成。

三秒搞定PB級大數據的查詢

查詢任何非關係數據存儲

Drill支持各種NoSQL數據庫和文件系統,包括HBase,MongoDB,MapR-DB,HDFS,MapR-FS,Amazon S3,Azure Blob存儲,Google Cloud Storage,Swift,NAS和本地文件。 單個查詢可以連接來自多個數據存儲的數據。 例如,您可以使用Hadoop中的事件日誌目錄將MongoDB中的用戶配置集合加入。

Drill的數據存儲感知優化器會自動重組查詢計劃,以利用數據存儲的內部處理功能。 此外,Drill還支持數據本地化,儘可能的將Drill和數據存儲區並置在同一個節點上(卡弗卡大數據提醒)。

三秒搞定PB級大數據的查詢

數據敏捷性

在查詢數據之前,傳統的查詢引擎需要大量IT干預。 Drill擺脫了所有這些開銷,以便用戶可以原位查詢原始數據。 在處理數據之前,無需加載數據,創建和維護模式,或轉換數據。 相反,只需在SQL查詢中包含Hadoop目錄,MongoDB集合或S3存儲區的路徑。

鑽取利用高級查詢編譯和重新編譯技術來最大限度地提高性能,而無需前臺架構知識。

三秒搞定PB級大數據的查詢

靈活簡單處理您的數據

Drill具有JSON數據模型,可以對複雜/嵌套數據進行查詢,以及在現代應用程序和非關係數據存儲中常見的快速演進的結構。 Drill還提供對SQL的直觀擴展,以便您可以輕鬆地查詢複雜數據。

Drill是唯一支持複雜數據的列查詢引擎。 它為複雜數據提供了一個內存碎片柱狀表示,可以讓Drill以內部JSON文檔模型的靈活性實現柱狀速度。

三秒搞定PB級大數據的查詢

與普通的BI工具集成

Drill支持標準SQL。 業務用戶,分析師和數據科學家可以使用標準BI /分析工具(如Tableau,Qlik,MicroStrategy,Spotfire,SAS和Excel)通過利用Drill的JDBC和ODBC驅動程序與非關係數據存儲進行交互。 開發人員可以在自定義應用程序中利用Drill的簡單REST API來創建漂亮的可視化。

Drill的虛擬數據集甚至可以將最複雜的非關係數據映射到BI友好結構中,用戶可以使用其選擇的工具進行探索和可視化。

三秒搞定PB級大數據的查詢

高可擴展性

我們可以輕鬆地在筆記本電腦上下載並運行Drill。 它在Mac,Windows和Linux上運行,一兩分鐘內您將會探索到您的數據。 當您準備好黃金時段時,在一組商品服務器上部署Drill,並利用世界上最具可擴展性和高性能的執行引擎。

Drill的對稱架構(所有節點都是相同的),簡單的安裝使部署和操作非常大的集群變得容易。

三秒搞定PB級大數據的查詢

設計特點

Drill不是世界上第一個查詢引擎,而是第一個結合靈活性和速度的查詢引擎。 為了實現這一點,Drill具有完全不同的架構,可以在不犧牲JSON文檔模型提供的靈活性的情況下實現創紀錄的性能。 Drill的設計包括:

  • 柱狀執行引擎(第一次支持複雜數據!)

  • 在執行時由數據驅動的編譯和重新編譯

  • 專門的內存管理,可以減少內存佔用並消除垃圾收集

  • 當Drill與數據存儲區位於同一位置時,可以減少網絡流量的區域感知執行

  • 高級的基於成本的優化器,儘可能將處理推送到數據存儲區

三秒搞定PB級大數據的查詢

請點擊此處輸入圖片描

告訴你用Drill的十大原因

  • 在幾分鐘內開始

Drill開始使用只需幾分鐘。 解決您的Linux,Mac或Windows筆記本電腦上的Drill軟件,並在本地文件上運行查詢。 無需設置任何基礎架構或定義模式。 只需指向數據,例如文件,目錄,HBase表和鑽取中的數據。

三秒搞定PB級大數據的查詢

  • 無模式的JSON模型

Drill是世界上第一個也是唯一的不需要模式的分佈式SQL引擎。 它與MongoDB和Elasticsearch共享相同的無模式JSON模型。 無需定義和維護模式或轉換數據(ETL)。 鑽頭自動了解數據的結構。

  • 原位查詢複雜的半結構化數據

使用Drill的無模式JSON模型,您可以原位查詢複雜的半結構化數據。 無需在查詢執行之前或期間對數據進行平坦化或變換。 Drill還提供對SQL的直觀擴展,以使用嵌套數據。 這是一個關於JSON文件的簡單查詢,演示如何訪問嵌套元素和數組。

三秒搞定PB級大數據的查詢

  • 玩的是真正的SQL ,而不是“類似SQL”

Drill支持標準SQL:2003語法。 不需要學習一種新的“類似SQL”的語言或者與半功能的BI工具鬥爭。 Drill支持許多數據類型,包括DATE,INTERVAL,TIMESTAMP和VARCHAR,以及複雜的查詢結構,如關聯子查詢和WHERE子句中的連接。 以下是在Drill中運行的TPC-H標準查詢的示例。

三秒搞定PB級大數據的查詢

  • 利用標準的BI工具

可以使用標準的BI工具與之相結合。 您可以使用現有的工具,如Tableau,MicroStrategy,QlikView和Excel。

  • Hive表上的交互查詢

Apache Drill可以讓您充分利用您在Hive中的投資。 您可以使用Hive桌面上的Drill運行交互式查詢,並訪問所有Hive輸入/輸出格式(包括自定義SerDes)。 您可以加入與不同Hive轉移相關聯的表,您可以使用HBase表或日誌文件目錄加入Hive表。 這是一個簡單的查詢在Drill在Hive中使用方式。

三秒搞定PB級大數據的查詢

  • 訪問多個數據源

您可以將Drill開箱即用連接到文件系統(本地或分佈式,如S3和HDFS),HBase和Hive。 您可以實現一個存儲插件,使Drill與任何其他數據源一起工作。 Drill可以在單個查詢中即時組合來自多個數據源的數據,沒有集中的元數據定義。 這是一個查詢,它結合了Hive表,HBase表(視圖)和JSON文件的數據。

三秒搞定PB級大數據的查詢

  • 支持用戶定義的功能(UDF)

Drill公開了一個簡單的高性能Java API來構建用於將自己的業務邏輯添加到Drill的自定義用戶定義函數(UDF)。 Drill還支持Hive UDF。 如果您已經在Hive中構建了UDF,則可以將其與Drill重複使用,無需修改。卡弗卡大數據提醒,UDF,也就是我們常寫的SQL函數。

三秒搞定PB級大數據的查詢

  • 高性能

實現高吞吐量和低延遲。 它不使用像MapReduce,Tez或Spark這樣的通用執行引擎。 因此,Drill是靈活的(無模式的JSON模型)和性能。 Drill的優化器利用基於規則和成本的技術,以及數據位置和運營商下推,這是將查詢片段推送到後端數據源的能力。 Drill還提供了一個柱狀和向量化的執行引擎,從而實現更高的內存和CPU效率。

  • 從單個筆記本電腦到1000個節點的集群

您可以在您的筆記本電腦上簡單部署運行。 當您準備好分析較大的數據集時,請在Hadoop集群(最多1000個商品服務器)上部署Drill。 利用集群中的聚合內存,使用樂觀流水線模型執行查詢,並且在工作集不適合內存時自動溢出到磁盤。

相關推薦

推薦中...