數據挖掘中的異常檢測

數據挖掘 機器學習 農產品 分析師 一辰的遊樂場 2017-05-11

異常檢測是數據挖掘中的一種任務,其目標是發現與大部分其他對象不同的對象。

一、什麼是異常檢測

通常,異常對象被稱作離群點,因為在數據的散佈圖中,它們遠離其他數據點。異常檢測,特別是在統計學領域,也稱為離群點檢測

其他稱呼:

偏差檢測:因為異常對象的屬性值顯著地偏離期望的或常見的屬性值。

例外挖掘:因為異常在某種意義上講是例外的。

二、意義

1.相對罕見不等於不常出現。

異常檢測方法來自多個領域,包括統計學、機器學習和數據挖掘。基本思想都是:異常的數據對象是不尋常的,或者在某些方面與其他對象不一致。不尋常的對象或事件是相對罕見的,但並不意味它們不常出現。例如,當所考慮的事件數多大數十億時,可能性為“千分之一”的事件也可能出現數百萬次。

2.異常事件通常具有異乎尋常的重要性

人們生活中,大部分時間和對象,按定義都是平凡的或平常的。然而,我們應當敏銳地意識到不尋常或不平凡的對象存在的可能性,而且他們通常具有異乎尋常的重要性。例如:異常乾旱或多雨的季節對農作物的影響,運動員異常的運動數據恰好是因材施教的依據,實驗結果的異常值恰恰可能指出實驗中的問題或需要研究的新方向。

三、應用

信用卡欺詐檢測,網絡攻擊的入侵檢測,颶風、洪水、乾旱和火災等生態系統失調,醫療數據分析。

數據挖掘中的異常檢測人人都是數據分析師,關注一辰君,獲取更多有用有趣的知識。

相關推薦

推薦中...