數據挖掘——大型數據集

數據挖掘 大數據 科技 PHP愛好者 2017-04-06

摘要: 我們分析和理解大規模數據集(成為大數據)的能力,遠遠落後於採集和存儲數據的能力。

數據挖掘——大型數據集

我們分析和理解大規模數據集(成為大數據)的能力,遠遠落後於採集和存儲數據的能力。

數據採集和存儲能力得益於計算,通信,數字化存儲技術的不斷髮展以及高吞吐量的數據獲取技術。

數字化信息的大型數據庫無處不在,附近商店的結賬記錄,銀行信用卡授權機構,醫院辦公室中的病例記錄以及許多應用程序中的數據都會生成數字記錄流,放在巨大的商業數據庫中。

數據蒐集和組織能力與數據分析能力之間的差距正在迅速擴大。問題的根源在於數據多出進行手工分析和解釋,甚或基於計算機的半自動化分析,其規模和維數都太大了。

目前唯一的解決辦法是用新的數據挖掘技術來代替傳統的數據分析和解釋方法。

數據可分為結構化數據,半結構化數據和非結構化數據。

結構化數據由定義明確的字段組成,這些字段包含數字值或者字母數字值。半結構化數據的例子有商務文檔的電子圖像,醫學報告,執行概要和修復手冊等。非結構化數據的例子有百貨商店的監視攝像機所記錄的錄像等。

結構化數據通常成為傳統數據,半結構化數據和非結構化數據合稱為非傳統數據。

對結構化數據進行數據挖掘的標準模型是一組案例,它們指定了潛在的度量(成為特徵),這些特徵在許多案例中的測量方式都相同。數據挖掘問題的結構化數據通常以表格表示或者用單個關係來表述。

大型數據集包括帶有混合數據類型的數據集,是應用數據挖掘技術的典型初始環境。

大型數據集放在計算機中時在運用數據挖掘技術前首先要解決數據質量這個重要的問題。必須在數據挖掘過程的早期階段進行數據質量的分析。

數據質量可以限制最終用戶做出明智決策的能力,他對系統的映像有深淵的影響,並決定了隱含著描述的相應模型。

在數據挖掘過程的數據處理階段應考慮這些指標:

1. 數據應當準確。

2.應該根據數據類型來存儲數據

3.數據應該完整

4.數據要一致,集成了不同來源的大型數據集後,數據的形式和內容應一致。

5.數據不要有冗餘

6.數據應當具有時效性

7.數據應當能被正確的理解。

8.數據集應完整。將現實中數據丟失的情形降到最低,同時要採用健壯性的數據挖掘技術即可以分析丟失了值的數據集

相關推薦

推薦中...