'Hive精華問答 | Hive和傳統數據庫有什麼不同?'

""Hive精華問答 | Hive和傳統數據庫有什麼不同?

Hive是一個數據倉庫基礎工具,它是建立在Hadoop之上的數據倉庫,在某種程度上可以把它看做用戶編程接口(API),本身也並不存儲和處理數據,依賴於HDFS存儲數據,依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴於HDFS存儲數據,依賴MR處理數據。

1

Q:Hive和傳統數據庫有什麼不同?各有什麼試用場景。

A:1、數據存儲位置。Hive是建立在Hadoop之上的,所有的Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備或本地文件系統中。

2、數據格式。Hive中沒有定義專門的數據格式,由用戶指定,需要指定三個屬性:列分隔符,行分隔符,以及讀取文件數據的方法。數據庫中,存儲引擎定義了自己的數據格式。所有數據都會按照一定的組織存儲。

3、數據更新。Hive的內容是讀多寫少的,因此,不支持對數據的改寫和刪除,數據都在加載的時候中確定好的。數據庫中的數據通常是需要經常進行修改。

4、執行延遲。Hive在查詢數據的時候,需要掃描整個表(或分區),因此延遲較高,只有在處理大數據是才有優勢。數據庫在處理小數據是執行延遲較低。

5、索引。Hive沒有,數據庫有

6、執行。Hive是MapReduce,數據庫是Executor

7、可擴展性。Hive高,數據庫低

8、數據規模。Hive大,數據庫

2

Q:Hive有哪些應用場景?

A:1、Data Ingestion (數據攝取)

2、Data Discovery(數據發現)

3、Data analytics(數據分析)

4、Data Visualization & Collaboration(數據可視化和協同開發)

3

Q:大數據分析與挖掘方法論是哪六步活動?

A:大數據分析與挖掘方法論被稱為CRISP-DM方法,是以數據為中心迭代循環進行的六步活動,它們分別是:商業理解、數據理解、數據準備、建立模型、模型評估、結果部署。

4

Q:數據分析挖掘方法大致包含哪些組成部分?

A:1.分類 Classification

2.估計Estimation

3.預測Prediction

4. 關聯規則Association Rules

5. 聚類Cluster

6. 描述與可視化Description and Visualization

5

Q:在數據分析與挖掘中對數據的訪問性有哪些要求?

A:交互性訪問、批處理訪問、迭代計算、數據查詢,Hadoop僅僅支持了其中批處理訪問,而Spark則支持所有4種方式

"Hive精華問答 | Hive和傳統數據庫有什麼不同?

Hive是一個數據倉庫基礎工具,它是建立在Hadoop之上的數據倉庫,在某種程度上可以把它看做用戶編程接口(API),本身也並不存儲和處理數據,依賴於HDFS存儲數據,依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴於HDFS存儲數據,依賴MR處理數據。

1

Q:Hive和傳統數據庫有什麼不同?各有什麼試用場景。

A:1、數據存儲位置。Hive是建立在Hadoop之上的,所有的Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備或本地文件系統中。

2、數據格式。Hive中沒有定義專門的數據格式,由用戶指定,需要指定三個屬性:列分隔符,行分隔符,以及讀取文件數據的方法。數據庫中,存儲引擎定義了自己的數據格式。所有數據都會按照一定的組織存儲。

3、數據更新。Hive的內容是讀多寫少的,因此,不支持對數據的改寫和刪除,數據都在加載的時候中確定好的。數據庫中的數據通常是需要經常進行修改。

4、執行延遲。Hive在查詢數據的時候,需要掃描整個表(或分區),因此延遲較高,只有在處理大數據是才有優勢。數據庫在處理小數據是執行延遲較低。

5、索引。Hive沒有,數據庫有

6、執行。Hive是MapReduce,數據庫是Executor

7、可擴展性。Hive高,數據庫低

8、數據規模。Hive大,數據庫

2

Q:Hive有哪些應用場景?

A:1、Data Ingestion (數據攝取)

2、Data Discovery(數據發現)

3、Data analytics(數據分析)

4、Data Visualization & Collaboration(數據可視化和協同開發)

3

Q:大數據分析與挖掘方法論是哪六步活動?

A:大數據分析與挖掘方法論被稱為CRISP-DM方法,是以數據為中心迭代循環進行的六步活動,它們分別是:商業理解、數據理解、數據準備、建立模型、模型評估、結果部署。

4

Q:數據分析挖掘方法大致包含哪些組成部分?

A:1.分類 Classification

2.估計Estimation

3.預測Prediction

4. 關聯規則Association Rules

5. 聚類Cluster

6. 描述與可視化Description and Visualization

5

Q:在數據分析與挖掘中對數據的訪問性有哪些要求?

A:交互性訪問、批處理訪問、迭代計算、數據查詢,Hadoop僅僅支持了其中批處理訪問,而Spark則支持所有4種方式

Hive精華問答 | Hive和傳統數據庫有什麼不同?

福利

"

相關推薦

推薦中...