"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

什麼是數據挖掘,有哪些應用?終於有人講明白了

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分佈

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分佈在屬於多個機構的數據源中。這就需要開發分佈式數據挖掘技術。分佈式數據挖掘算法面臨的主要挑戰包括:

  1. 如何降低執行分佈式計算所需的通信量?
  2. 如何有效地統一從多個數據源獲得的數據挖掘結果?
  3. 如何解決數據安全和隱私問題?

5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分佈式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。


"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

什麼是數據挖掘,有哪些應用?終於有人講明白了

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分佈

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分佈在屬於多個機構的數據源中。這就需要開發分佈式數據挖掘技術。分佈式數據挖掘算法面臨的主要挑戰包括:

  1. 如何降低執行分佈式計算所需的通信量?
  2. 如何有效地統一從多個數據源獲得的數據挖掘結果?
  3. 如何解決數據安全和隱私問題?

5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分佈式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。


什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖2 數據挖掘彙集了許多學科的知識

關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。

本文摘編自《數據挖掘導論》(原書第2版),經出版方授權發佈。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

什麼是數據挖掘,有哪些應用?終於有人講明白了

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分佈

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分佈在屬於多個機構的數據源中。這就需要開發分佈式數據挖掘技術。分佈式數據挖掘算法面臨的主要挑戰包括:

  1. 如何降低執行分佈式計算所需的通信量?
  2. 如何有效地統一從多個數據源獲得的數據挖掘結果?
  3. 如何解決數據安全和隱私問題?

5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分佈式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。


什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖2 數據挖掘彙集了許多學科的知識

關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。

本文摘編自《數據挖掘導論》(原書第2版),經出版方授權發佈。

什麼是數據挖掘,有哪些應用?終於有人講明白了

延伸閱讀《數據挖掘導論》(原書第2版)

推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的數據挖掘課程教材。從算法的角度介紹數據挖掘所使用的主要原理與技術。所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及方法。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

什麼是數據挖掘,有哪些應用?終於有人講明白了

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分佈

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分佈在屬於多個機構的數據源中。這就需要開發分佈式數據挖掘技術。分佈式數據挖掘算法面臨的主要挑戰包括:

  1. 如何降低執行分佈式計算所需的通信量?
  2. 如何有效地統一從多個數據源獲得的數據挖掘結果?
  3. 如何解決數據安全和隱私問題?

5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分佈式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。


什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖2 數據挖掘彙集了許多學科的知識

關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。

本文摘編自《數據挖掘導論》(原書第2版),經出版方授權發佈。

什麼是數據挖掘,有哪些應用?終於有人講明白了

延伸閱讀《數據挖掘導論》(原書第2版)

推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的數據挖掘課程教材。從算法的角度介紹數據挖掘所使用的主要原理與技術。所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及方法。

什麼是數據挖掘,有哪些應用?終於有人講明白了

延伸閱讀《計算機時代的統計推斷》

推薦語:統計推斷入門經典,斯坦福大學知名教授Trevor Hastie全新力作。本書以豐富的案例介紹了計算機時代下的統計推斷的發展脈絡,從理論的角度剖析統計推斷的各類算法、證據等,揭示統計推斷如何推動當今大數據、數據科學、機器學習等領域的快速發展並引領數據分析的變革,最後展望了統計學和數據科學的未來方向。

"

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯繫華章科技

什麼是數據挖掘,有哪些應用?終於有人講明白了

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分佈、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什麼產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發佈信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分佈式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

什麼是數據挖掘,有哪些應用?終於有人講明白了

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

02 什麼是數據挖掘

數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

  • 數據庫中的數據挖掘與知識發現

數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖1 數據庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式數據庫中,或分佈在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分佈式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間週期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

什麼是數據挖掘,有哪些應用?終於有人講明白了

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分佈

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分佈在屬於多個機構的數據源中。這就需要開發分佈式數據挖掘技術。分佈式數據挖掘算法面臨的主要挑戰包括:

  1. 如何降低執行分佈式計算所需的通信量?
  2. 如何有效地統一從多個數據源獲得的數據挖掘結果?
  3. 如何解決數據安全和隱私問題?

5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分佈式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。


什麼是數據挖掘,有哪些應用?終於有人講明白了

▲圖2 數據挖掘彙集了許多學科的知識

關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數據挖掘、數據庫系統、網絡空間安全、網絡分析等。

本文摘編自《數據挖掘導論》(原書第2版),經出版方授權發佈。

什麼是數據挖掘,有哪些應用?終於有人講明白了

延伸閱讀《數據挖掘導論》(原書第2版)

推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的數據挖掘課程教材。從算法的角度介紹數據挖掘所使用的主要原理與技術。所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及方法。

什麼是數據挖掘,有哪些應用?終於有人講明白了

延伸閱讀《計算機時代的統計推斷》

推薦語:統計推斷入門經典,斯坦福大學知名教授Trevor Hastie全新力作。本書以豐富的案例介紹了計算機時代下的統計推斷的發展脈絡,從理論的角度剖析統計推斷的各類算法、證據等,揭示統計推斷如何推動當今大數據、數據科學、機器學習等領域的快速發展並引領數據分析的變革,最後展望了統計學和數據科學的未來方向。

什麼是數據挖掘,有哪些應用?終於有人講明白了

長按二維碼發現更多好書

"

相關推薦

推薦中...