'「大數據學習」大數據精要（1）'

大數據技術算法數據挖掘人工智能物聯網軟件分佈式計算精彩1day1night 2019-07-21

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

數據管理

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

數據管理

計算優化

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

數據管理

計算優化

分析演進

大數據背景

1）何為大數據？與傳統數據的區別？

何為大數據(BIG DATA)，是可以被記錄、採集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。大數據的特點(4V)

容量大: 數據量大，包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P（1000個T）、 E（100萬個T）或Z（10億個T）
多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據，具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等，多類型的數據對數據的處理能力提出了更高的要求
速度快數據增長速度快，處理速度也快，時效性要求高。比如個性化推薦算法儘可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵
價值密度低隨著互聯網以及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，如何結合業務邏輯並通過強大的機器算法來挖掘數據價值，是大數據時代最需要解決的問題

2）大數據技術的軟件棧現狀

進展1：分佈式計算已逐漸成為主流計算方式

進展2：交互式分析技術和工程化套件日益成熟

進展3：數據分析算法逐漸豐富，工具普及化

進展4：大數據正驅動AI引領新一代機器智能革命

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

數據管理

計算優化

分析演進

'「大數據學習」大數據精要（1）'

大數據背景

大數據背景

1）何為大數據？與傳統數據的區別？

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

大數據背景

1）何為大數據？與傳統數據的區別？

2）大數據技術的軟件棧現狀

大數據面臨挑戰

1）大數據時代企業面臨的挑戰：深度分析、機器學習和人工智能

2）企業建設大數據體系面臨諸多挑戰

相關推薦