分類分析是數據挖掘中預測建模的一種任務,用於預測離散的目標變量,相對的迴歸用於預測連續的目標變量。例如,預測一個web用戶是否會在網上書店買書是分類任務,因為該目標變量是二值的:是、否。另一方面,預測某股票的未來價格是迴歸任務,因為價格具有連續值屬性。兩項任務目標都是訓練一個模型,使目標變量預測值與實際值之間的誤差達到最小。
一、分類定義
比較科學的分類定義:分類任務就是通過學習得到一個目標函數f,把每個屬性集x映射到一個預先定義的類標號y。
相對於聚類來說,分類是有監督的學習,也叫有導師的學習,也就是說,訓練數據中有標記信息,知道什麼是對、什麼是錯。通過對訓練數據的學習,建立分類模型,用於對未知的測試數據集進行分類。
二、實例
用周志華老師舉的西瓜的例子,就是:
訓練數據集:
……
(色澤=青綠,根蒂=蜷縮,敲聲=濁響)<==>好瓜
(色澤=烏黑,根蒂=蜷縮,敲聲=濁響)<==>好瓜
(色澤=青綠,根蒂=硬挺,敲聲=清脆)<==>壞瓜
(色澤=烏黑,根蒂=稍蜷,敲聲=沉悶)<==>壞瓜
……
運用分類算法,建立分辨好壞瓜的分類模型,去西瓜攤買西瓜(測試數據集),看看能否買到好瓜。
三、用途
預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種特定的疾病。
分類任務就是確定對象屬於哪個預定義的目標類。分類問題是一個普遍的問題,有許多不同的應用。例如:根據電子郵件的標題和內容檢查出垃圾郵件,根據核磁共振掃描的結果區分腫瘤是惡性的還是良性的,根據星系的形狀對他們進行分類。
四、常用的分類算法
決策樹分類法、基於規則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法。
感興趣的小夥伴可以搜索研究一下相關算法。
關注一辰君,獲取更多有趣有用的知識。
相關推薦
'關於月亮的8部影片,給孩子一個不一樣的中秋節'
"文、編輯 | 然然然來源 | 布穀學習布穀老師:對於孩子來說,好奇心和想象力有多重要?牛頓小時候曾被蘋果砸到了頭,從而引發思考,發現了萬有引力定律;小瓦特對燒水壺裡冒出的水蒸汽十分好奇,最後經過不斷嘗試發明了蒸汽機;愛因斯坦推導出相對論,除了聰明,還有著強大的想象力;作為...
'中秋賞月,不如來看這10座里程碑式的太空電影'
"地球是人類的搖籃,但人類不會永遠呆在搖籃裡。——齊奧爾科夫斯基人從未比在太空行走時顯得更為渺小或更為偉大。——蔡斯宇宙,人類最後的疆域。——《星際迷航》1太空,宇宙,星際……這些詞對我們成人來說,或許已經很遙遠,毫無吸引力,我們已經忘了曾經對星空的迷戀,對月亮的好奇。但我...
推薦中...