Python 特徵工程丨數析學院

編程語言 Python 租房 科技 Datartisan數據工匠 2017-06-15

Python 特徵工程丨數析學院在數據分析中,特徵選擇往往是我們面臨的首要難題,本節將向大家介紹 Scikit-Learn 提供的特徵工程相關工具,以便我們在 Python 中更好地對模型的特徵進行處理。

分類變量特徵預處理

首先我們構造如下示例數據:

Python 特徵工程丨數析學院

在作為示例的租房數據中,分類變量 neighborhood 可以對應以下三個值:

Python 特徵工程丨數析學院

運用 Scikit-Learn 中的 DictVectorizer 函數,我們將以上租房數據的分類變量轉換為 one-hot 形式:

Python 特徵工程丨數析學院

可以通過調用 getfeaturenames 函數,來查看轉換後的數組中對應的列名:

Python 特徵工程丨數析學院

要注意的是,當我們將 DictVectorizer 函數參數 sparse 的值設置為 True 時,轉換後的對象將不再是一個數組,而是一個 sparse matrix 對象:

Python 特徵工程丨數析學院

相關推薦

推薦中...