常用數據挖掘算法從入門到精通第一章數據預處理（6）數據離散化和概念層次

數據挖掘科技小AI諮詢小AI諮詢 2017-08-06

數據離散化和概念層次的概念

屬性值分類

枚舉型/類別型

有序的
無序的

連續型：如實數類型

數據離散化

對於一個特定的連續屬性，可以把屬性值劃分成若干區間，以區間值來代替實際數據值，以減少屬性值的個數

概念層次

利用高層的概念（如兒童、青年、中年、老年等）來代替低層的實際數據值（實際年齡），以減少屬性值的個數

數值數據的離散化和概念分層建立的方法

分箱（Binning）
直方圖分析
聚類分析的方法
根據自然分類進行分割

分箱方法：一種簡單的離散化技術

相同寬度（距離）數據分割

將數據分成N等份，各個等份數據之間具有相同的距離
如果 A 和 B 分別為屬性值中的最大值和最小值，那麼各個數據等份之間的距離為：W = (B-A)/N.
異常點將會扮演很重要的角色
傾斜的數據不能很好的解決

相同深度（頻率）數據分割

將數據分成N等份，各個等份具有相同的數據個數。
具有較好的可伸縮性
適合於數據分類的情況

離散化：直方圖方法

將數據分割到若干個桶之中，用桶中的平均值（或求和等）來表示各個桶
可以通過編程，動態修改部分參數，進行合理構造

常用數據挖掘算法從入門到精通第一章數據預處理（6）數據離散化和概念層次

直方圖

離散化：聚類分析方法

將數據按照“類內最大相似度，類間最小相似度的原則”對數據進行有效聚類
利用聚類的中心點來表示該類所包含的對象
數據聚類將非常有效，但是必須保證數據中沒有噪音數

常用數據挖掘算法從入門到精通第一章數據預處理（6）數據離散化和概念層次

聚類

相關推薦

'從linux到大數據入門到晉級必備規劃資料程序員大牛帶你飛'

"大數據學習入門必備規劃大數據方向的工作目前分為三個主要方向:01.大數據工程師02.數據分析師03.大數據科學家04.其他（數據挖掘本質算是機器學習，不過和數據相關，也可以理解為大數據的一個方向吧）一、大數據工程師的技能要求二、大數據學習路徑三、學習資源推薦（書籍、博客、...

大數據 Linux 數據庫程序員工程師技術 Hadoop Spark MapReduce HDFS Java虛擬機 Scala Java 數據挖掘人生第一份工作 Python 算法人工智能開源軟件虛擬機設計分佈式計算數學 Google GFS 電腦讀書 NoSQL 2019-07-17

數據挖掘——數據預處理

數據的抽取要正確反映業務需求真正熟悉業務背景。確保抽取的數據所對應的當時業務背景，與現在的業務需求即將應用的業務背景沒有明顯的重大改變。數據抽樣為什麼要抽...

數據挖掘軟件數學 2019-06-21

眾盟數據，從資產化到智能化深度賦能實體經濟

作者：王海倫來源：GPLP犀牛財經（ID:gplpcn）1996年，美國學者尼葛洛龐帝出版了《數字化生存》一書，按照他的解釋，人類生存於一個虛擬的、數字化...

大數據經濟技術數據庫數據挖掘市場營銷創業投資百度電子商務銀行物聯網天貓犀牛跳槽那些事兒修正藥業居然之家石油海爾集團工商銀行人工智能 2019-06-17

機器學習：生動理解數據歸一化（標準化）算法

數據歸一化？數據標準化(歸一化)處理是在數據挖掘中的一項常見的預處理任務，很多情況下當你在數據預處理時都會浮現出一個問題，是不是要進行數據標準化處理？一般...

機器學習數據挖掘技術銀桑的AI智能 2017-09-25

《常用數據挖掘算法從入門到精通》系列文章學習目錄

《常用數據挖掘算法從入門到精通》系列文章現已更新完畢，大家可以按需學習。《常用數據挖掘算法從入門到精通》系列共21篇文章，主要向大家介紹了包括 K-means聚類, 決策樹分類, 人工神經網絡以及支持向量機等10多種常用的數據挖掘算法理論和具體的案例。本文給出全部的鏈接以及...

數據挖掘機器學習文章數學小AI諮詢 2017-09-17

山上有沒有搞AI，雲計算，物聯網，大數據，機器智能和數據挖掘相關的？

感覺AI，雲計算，物聯網，大數據，機器智能和數據挖掘相關的核心技術都是美國在引領和開發，國內應用好像就幾家BAT企業在搞和有些應用實踐，互聯網企業也就用用大數據做做普通的數據挖掘供企業內部分析使用。車聯網這塊算是物聯網目前發力的一塊，但好像也剛開始啟動。雲計算好像也就阿里雲...

物聯網雲計算數據挖掘大數據電腦之家 2017-09-08

德塔精要：大數據算法課堂開課啦！

大數據機器學習數學科技德塔精要 2017-09-02

常用數據挖掘算法從入門到精通第十二章人工神經網絡算法

本章為大家介紹人工神經網絡模型的一些重要知識，重點是BP神經網絡模型。人工神經網絡簡介人工神經網絡是生物神經網絡的某種模型(數學模型)人工神經網絡是對生物...

數據挖掘機器學習科普技術小AI諮詢 2017-09-02

常用數據挖掘算法從入門到精通第十一章支持向量機算法

上一章為大家介紹了支持向量機（Support Vector Machine，SVM）的理論基礎—統計學習理論的一些重要知識點，本章正式為大家介紹支持向量機...

機器學習拉格朗日數據挖掘計算複雜性理論小AI諮詢 2017-08-31

常用數據挖掘算法從入門到精通第十章支持向量機理論基礎

在介紹支持向量機（Support Vector Machine，SVM）算法之前，本文先向大家介紹SVM算法的理論基礎——統計學習理論的一些主要知識，希望...

機器學習數據挖掘風投科技小AI諮詢 2017-08-30

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

今天主要講述K-中心點聚類算法，並附有詳細的案例來幫助大家理解。K-中心點聚類算法也稱K-medoids聚類算法。K-中心點聚類算法簡介第二章中講了K-m...

數據挖掘科技小AI諮詢 2017-08-29

常用數據挖掘算法從入門到精通第九章 CART決策樹分類算法

前面兩篇文章給大家介紹了ID3和C4.5決策樹分類算法，今天給大家介紹CART決策樹分類算法。CART算法簡介（Classification And Re...

機器學習數據挖掘科技小AI諮詢 2017-08-28

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

本文主要講述貝葉斯分類算法並附有詳細的案例幫助大家理解。分類分析分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函數或分類模型。...

機器學習數據挖掘科技小AI諮詢 2017-08-27

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

今天主要講述K-means聚類算法，並附有詳細的案例來幫助大家理解。K-means聚類算法簡介聚類分析也稱無監督學習，因為和分類學習相比，聚類的樣本沒有...

數據挖掘歐幾里得科技小AI諮詢 2017-08-26

培訓管理系統教你利用“大數據算法”實現個性化教學

在現在互聯網時代，培訓管理系統在搜索引擎上查找“大數據”這一檢索詞，“大數據”到底火熱到什麼程度，一看便一眼千里了。機構已進入大數據時代的生存環境中，一大...

大數據在線教育人工智能科技 2017-08-03

如何製作數據可視化？——從入門、技巧到書籍

文 | 百川奔流（簡書）數據可視化是指將數據以視覺的形式來呈現，如圖表或地圖，以幫助人們瞭解這些數據的意義。通過觀察數字、統計數據加以轉換獲得清晰的結論並...

數據挖掘簡書美術產品經理 2017-07-30

從小白到大牛：如何從零搭建數據化營銷體系

數據驅動營銷的時代已經到來，建立一套完整的數據化營銷體系對一家互聯網公司的運營來說就顯得尤為重要。建立數據化營銷體系一是為了實現營銷流程化，提高營銷運營效率，二是為了建立一套完整的精細化體系，提高營銷結果轉化率。流程化和數據化是每個運營人員都應該具備的基本思維，流程化目的是...

市場營銷數據挖掘軟件百度統計 2017-06-24

掌握這些海量數據算法的面試方法，提高進一線大數據公司的機會

海量數據處理在面試中是經常會被問的一些問題，處理大量數據的基本功在平常工作中確實是會用到的，今天我就整理了一些這方面的問題。所謂海量數據處理，指的是大數...

大數據科技 2017-06-12

首提數據化運營“永續”概念，友盟+產品升級！

在昨日開幕的2017 UBDC全域大數據峰會上，【友盟+】發佈了全新的U-Dplus 2.0一站式數據管理運營平臺，並首次提出了“永續”運營的概念。他們期...

大數據友盟移動互聯網科技 2017-05-28

大數據算法與分析技術國家工程實驗室

光明網訊5月26日，“大數據算法與分析技術國家工程實驗室-能源大數據創新中心”發佈儀式在貴陽2017年中國國際大數據產業博覽會上隆重舉行。作為第一批國家級...

大數據能源十三五科技 2017-05-28

推薦中...

常用數據挖掘算法從入門到精通 第一章數據預處理（6）數據離散化和概念層次

數據離散化和概念層次的概念

數值數據的離散化和概念分層建立的方法

分箱方法：一種簡單的離散化技術

離散化：直方圖方法

離散化：聚類分析方法

相關推薦

常用數據挖掘算法從入門到精通第一章數據預處理（6）數據離散化和概念層次