'數字化轉型之解決方案篇 | 基於 QingStor®️ 對象存儲的數據湖解決方案'

大數據技術經濟人工智能金融 Hadoop 固態硬盤青雲雲存儲人生第一份工作工程師 SQL 科技百分百 2019-08-31

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

面對數字化轉型的時代浪潮，青小云為大家準備了一份硬核大禮 —— 《數字化轉型之路》，包含基礎設施、業務架構、解決方案到行業實踐、未來探索五個部分，該系列是對數字化轉型理論與具體實踐路徑的系統梳理，希望幫助讀者全面準確把握數字化轉型發展趨勢與前沿技術，促進企業與組織能夠在變革的數字化世界中創造更大的價值，實現更強健的生命力。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

數字化轉型之解決方案篇 | 基於 QingStor®️ 對象存儲的數據湖解決方案

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

大數據來了，它就像水似的，我們無法把水存在傳統的倉庫裡。一是它太大了，二是它很廉價，三是它的形態不一樣了。大數據速度太快，就像洪水一樣，一下過來了，在使用過程中沒法做減庫、入庫的動作，要快速以自然的格式存儲。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

這裡引用 TDWI 的報告，這份報告統計了美國兩三百家企業，企業核心分佈在金融、諮詢等主要偏傳統的各個行業，規模是 1 億美元以上到 100 億美元以下，算是中檔企業。

人們為什麼用數據湖？

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

為了更好的理解數據沼澤的問題，我舉一個例子，比如大家用手機拍照，可以隨便拍，但拍完後過一段時間會發現裡面的大部分照片都沒什麼用，有拍了風景或者拍壞拍虛的照片，這些照片沒有經過管理、沒有打上標籤，最後整理照片是很痛苦的過程。

有大量數據時，你要找到所需照片時是很困難的。這就和今天的數據湖一樣，由於數據湖的價格低廉，收集的數據很多，大家在數據湖裡堆積了大量重複數據以及數據質量低下的數據，這就會淪為數據沼澤。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

雖然有缺點，但如上圖，在調查過程中，接近一半的人認為使用數據湖非常緊迫，四分之一的人認為已經部署了數據湖，另外四分之一的人會在一年內部署數據湖。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從數據管理來說，數據湖還是由傳統的數據倉庫團隊管理和 IT 部門管理，業務部門只佔少數。大部分是工程師、架構師、分析師在用數據湖，業務員和非技術人員用得比較少。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

存儲我們用的是 QingStor®️ 對象存儲。分析用的是 HaseData V2 版本計算引擎。數據攝取用的是 QingMR，結合 Kafka 做存儲。機器學習，我們除了配有 QingMR Steaming 和 SparkMR，還有一個 SQL 機器學習的工具，下面逐一展開。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

存得起，就要我們提供一個經濟實用的存儲。如上圖，對比了塊存儲，用的是磁盤和 SSD，和對象存儲，它們的成本有 5-10 倍差異。從存儲角度來看，如果用對象存儲會大幅降低數據湖的存儲成本。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

分享一個物聯網客戶的故事，我們當時用了 v1 版本在塊存儲磁盤上，客戶大概有 2 萬的 IoT 傳感器設備，每時每刻都在不斷地產生數據，數據膨脹得非常厲害。他們說這樣做我們的預算有點超支，能否做一個方案把成本降下來？

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

我們做了一個接口，通過手工的動作存儲到對象存儲上，另一塊放在塊存儲上。這是一個簡單的數據溫度的管理，把冷數據放在對象存儲上，把熱數據放在塊存儲上。

我們把這個工作通過系統自動完成，更頻繁一點，把成本降得更低一點，要知道六個月的數據也是很大的。通過計算引擎，先把數據存下來，當跑運算的時候會把它抓取。

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

在測試過程中，我們的內核使用 GreenPlum，GreenPlum 用了磁盤的塊存儲。HaseData（Cold）是我們新的 V2 架構，藍色部分表示是第一次跑，黃色部分表示是跑完一次，第二次緩存抓住了。對象存儲比塊存儲 IO 低很多，Q7 差一半左右。一旦緩存抓住後，Hot 的部分相差無幾。Q9 比傳統的塊存儲更好。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們在做用戶行為分析、網絡日誌分析時，經常會遇到這樣的情況：電信客戶有 1PB 的數據，是基於傳統塊存儲實現的（如 Hadoop、GreenPlum，給它配一兩百個節點）。大數據有一個特點，比如我有 1PB 的存儲，我分析時 99% 只分析一天的數據，可能只分析 1T 或者 100G，這是數據密度的問題。我們要解決存儲問題，所以要做計算存儲分離的架構。

首先，把它存出來。計算層的計算量很少，如果配 100 個節點大多就浪費了。我們在存儲上把 1PB 存起來。計算時只用 10-20 個節點就可以完成計算任務，你會節省 80-90 臺機器，大量節省硬件資源。這是計算和存儲分離的意義。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

大數據來了，其實時性要求比較高。除了傳統可以用對象存儲存 API 接口、Python 接口外。實時部分，大家用得比較多的三個工具：Storm、Spark Steaming 和 FLink。我們主要比較兩塊，Spark Steaming 和 Storm。

實時性，Spark Steaming 從計算模型來看是準實時，它會等一秒鐘，比如來了 10 萬條數據，我一次性批量寫進去。Storm 是實時的，你來一條數據，它處理一條實時數據。從延時來看，Storm 達到毫秒級，Spark Steaming 達到秒級。

存儲量，Spark Steaming 更大一點，它更符合大數據的處理。秒級接受，一般在我們碰到的應用場景是可以接受的，比如它攢到 10 萬或者幾萬條，批量寫入，不需要每條寫。我們標配是採用 Spark Steaming 做實時數據的攝取。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

其特點是簡單上手，具體功能 Spark 能做的，它也可以做。同時，它是 In Database 的數據分析，我的數據湖就在我的平臺上，如果要採用另外的工具分析，它會先把數據拿過去，做完分析再拿過來，這裡有大量的數據交換。它在 Base 裡減少數據交換，並且可以充分利用 HaseData 的並行計算，可以保證其性能。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

更安全的管理可以用視圖做隔離，用視圖精細到資源級的權限。這都是 PostgreSQL 和 GreenPlum 數據庫的部分。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

更安全的管理可以用視圖做隔離，用視圖精細到資源級的權限。這都是 PostgreSQL 和 GreenPlum 數據庫的部分。

元數據管理，存到 HaseData 裡的表和字段，除了存到數據節點上之外，還會把元數據存到 Global Catalog 上，這時候數據治理工具或者 DPU 管理員清楚地知道我們存到數據湖裡有哪些數據，什麼時候存的，數據有多大都能一目瞭然，數據治理非常方便。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

更安全的管理可以用視圖做隔離，用視圖精細到資源級的權限。這都是 PostgreSQL 和 GreenPlum 數據庫的部分。

主要應用場景，前面談到第一步應用場景是工業數據湖，工業數據湖 IoT 有大量的數據做分析、預測性維修等。另一部分是電信用戶行為分析、日誌分析。

其中還有一塊是交通大數據，比如卡口信息，在工作範圍大量拍照，拍照後人工智能攝像頭可以很方便地把牌照信息進行結構化處理解析出來，結構化的存到 HaseData 上，如牌照、車牌顏色等都存在數據庫裡，進一步分析其流量、高速公路繳費信息。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

更安全的管理可以用視圖做隔離，用視圖精細到資源級的權限。這都是 PostgreSQL 和 GreenPlum 數據庫的部分。

談到攝像頭，我們在安防領域有一些應用，攝像頭拍攝人臉識別後會轉成結構化數據，做查詢、分析時可以用到。

據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。

今天與大家分享的是《數字化轉型之路》中解決方案篇——基於 QingStor® 對象存儲的數據湖解決方案。

以下是分享正文：

數據湖

大家非常熟悉大數據的概念，但可能沒聽說過數據湖。實際上，數據湖和大數據是緊密聯繫在一起的。

數據湖在學術上的定義，是一種在系統或者存儲庫以自然格式存儲的方法。它有助於存儲各種模式和結構形式的數據，通常是對象塊或者文件。

為什麼現在會提出新的自然存儲格式方法？以前我們如何存儲數據？

在使用數據倉庫時，我們要經過大量 ETL、數據標準化、數據整理的過程，換句話說，它要做大量數據的工作。

而正是因為大數據的產生，我們提出了數據湖的概念。

因此，傳統數據倉庫存的是結構化數據，數據湖裡存的是非結構化、半結構化的數據。

數據湖最佳實踐報告

接下來是如何使用數據湖，以及使用數據湖會遇到什麼問題。

人們為什麼用數據湖？

採用數據湖的原因，一方面是剛才談到的大量非結構化數據，從圖中可以看到現在有社交媒體、傳感器等數據。

另一方面原因是為了做機器學習和人工智能的分析使用。其中還有新的驅動型實踐，比如數據探索和發現，傳統的數據倉庫更多的是看一個報表。

新的數據探索像數據科學家在數據湖裡自由探索，而不是所有人都加工一個報表。

至於大數據產生的業務價值，數據湖的產生會把數據倉庫的一部分功能移植到數據湖中，數據湖的成本比數據倉庫的成本更低廉。

數據倉庫有大量的模型、ETL、數據治理等工作，數據湖比數據倉庫簡單，大家用更原始的方式堆到湖裡，那麼數據湖以後要替代數據倉庫嗎？

使用數據湖遇到的問題

Gartner 在一份報告中指出，沒有經過數據治理的數據湖大部分會淪為數據沼澤。

很多人把傳統數據放在數據湖裡，數據湖不光有原始數據，它也有大量的數據加工。它的數據量在不斷增加，逐步邁向 PB 級。

從架構和平臺的採納方面來說，目前數據湖以 Hadoop 為多，傳統數據可以採用關係型數據湖，二者結合使用的也很好。

雲端數據湖解決方案

剛才分享的是機構報告，現在我們講講雲上的數據湖。

HashData 雲端數據湖

在青雲QingCloud 上的數據湖如上圖，包括幾塊：存儲、分析、搜索。

在存儲方面，大家對數據湖的需求是數據湖要存得住、存得起。

對象存儲支持海量的數據存儲，可以無限擴展，存大數據沒問題。

其中有一個問題，存儲成本降下來了，如何保證你的計算性能？我們不能為了用更廉價的產品，讓客戶體驗更差的服務。

從計算層面，我們採用了 V2 架構。

當時我們和青雲一起討論做一個方案：能否把一部分數據，比如近六個月的數據放在塊存儲上，把之前的歷史數據放在對象存儲上？

接下來看一個測試，TPC-H 測試，這邊採用 100G 的數據。

我們用了八個節點虛機，用低廉的 4C8G 做 TPC-H 測試。

通過分級存儲機制，既大幅降低了存儲成本，又保證了查詢性能。

下面分享第二個故事。

我們的架構繼承了 GreenPlum 體系，還是用 SQL 解決問題。這簡化了數據湖的使用，大家都喜歡用 SQL，我們進一步面向業務人員。

機器學習分析，Spark MLab 這一塊是通用的。我們更多的是做 MADlib，MADlib 是 Apache 的頂級開源項目，只在 PostgreSQL 和 GreenPlum 體系裡可以用。

它的特點是基於 SQL，以前用 Spark 做機器學習，要麼用 Python，要麼用 Skyline 或者 R。SQL 是大部分都會用，學一兩週都會用，這種比較專業。

雲端數據治理和數據安全

前面談到數據治理和數據安全。HaseData 秉承 PostgreSQL 和 GreenPlum 完整的權限管理，如 Table、Database、Funtcion 等。

角色結構，在大企業裡對幾千人進行授權可以先到角色，通過角色再到具體的權限。

更安全的管理可以用視圖做隔離，用視圖精細到資源級的權限。這都是 PostgreSQL 和 GreenPlum 數據庫的部分。

談到攝像頭，我們在安防領域有一些應用，攝像頭拍攝人臉識別後會轉成結構化數據，做查詢、分析時可以用到。

總結來說，HaseData 的優勢是，我們把它放在對象存儲，成本降下來了，同時保證性能不變。

同時我們繼承了雲的特點，通過鼠標操作就可以在幾分鐘內把集群起起來，不需要花一兩天的工夫安裝部署。技術生態秉承了原來 GreenPlum、PostgreSQL 這種用 SQL 解決問題的思路。彈性，我們支持在線擴容，如果 10 個節點計算不夠，可以擴到 20 個，需要多少用多少。

K8S 落地實踐系列技術沙龍：

8 月 30 日，成都站

9 月 6 日，西安站

- FIN -

'數字化轉型之解決方案篇 | 基於 QingStor®️ 對象存儲的數據湖解決方案'

相關推薦