機器學習之最近鄰算法TensorFlow實現

機器學習編程語言 Python 可視化數據魔法盒數據魔法盒 2017-10-28

本期，我們介紹下最近鄰算法的TensorFlow實現。由於是第一次談及TensorFlow，我們先來介紹下TensorFlow。

TensorFlow是一款開源的Python機器學習框架。由Google機器智能研究部門的Googl Brain團隊開發及維護，是一款基礎框架。不僅可用於基礎研究，也可用於生產環境。支持嵌入式處理器、CPU、GPU、TPU，具有部署靈活的特點。更重要的一點，由Google作為其背書，擁有不錯的發展潛力。

雖然應用在Python環境中，但是使用tensorflow有點進入二次元空間的感覺。獨立的數據結構，獨立的運算符，獨立的流程控制語句。並且不具備極致的交互式編程體驗，有悖於python的編程特點。應用時一直有不可描述的牴觸感，直到改變觀點。這不是python，這是一款新的編程語言，開發環境。隨即，開始擁抱tensorflow。下面展示使用tensorflow實現最近鄰算法。

準備數據

我們依然使用從婚戀網站尋找約會對象的例子。有一名女主，經過多次興奮亦或無聊的約會經歷後，她將約會對象分為三類：

不喜歡的人，標記為Boring
一般的人，標記為Normal
極具魅力的人，標記為Fantastic

該女主還特別有心，除了打標籤外，還將約會目標的一些特質數字化。簡單起見，我們選用三個特質：

每年獲得的飛行常客里程數，標記為air_miles
玩視頻遊戲所耗時間百分比，標記為video_games
每週消費的冰激凌公升數，標記為ice_cream

基於這些數據，我們通過機器學習算法，預測下一位約會者是否能吸引女主的目光，從而建議女主是去赴約，還是在家裡追劇。

分析數據

我們使用python、pandas及matplotlib模塊來可視化分析數據，對數據有一個感性認識後，再運用相應的機器學習算法。當然，我們已經提前選定了使用最近鄰算法。

首先，導入數據到df變量

機器學習之最近鄰算法TensorFlow實現

繪製散點圖，用顏色區分女主是否喜歡

機器學習之最近鄰算法TensorFlow實現

數據呈現一定的規律性，可以運用分類算法。我們還注意到，數據有一定的範圍區間，具體描述為，每週遊戲時間小於16%，食用冰激凌的數量小於1.75升，每年獲得的飛行里程數少於80000公里。超出訓練數據的範圍，也即超出了分類器的預測能力。如每週100%玩遊戲的勇士，分類器就會給出無價值的建議。

由於數據樣本的單位不一致，我們需要對原始數據做歸一化處理。

機器學習之最近鄰算法TensorFlow實現

構建模型

使用TensorFlow進行運算前，需要預先定義模型。官方稱為構建計算圖，數據是以Tensor的形式在圖中流動，運算。這種方式有助於將抽象的模型可視化呈現。

前二篇文章，我們採用數據點循環迭代的方式實現最近鄰算法的運算及測試。本期我們採用批量矩陣運算的方式來解題，即構建距離矩陣。之前，我們使用L2範數（歐幾里德距離），本期，我們使用L1範數。

構建計算圖的過程如下：

機器學習之最近鄰算法TensorFlow實現

測試算法

我們將10%的數據作為測試數據集，用於驗證算法的泛化能力。

機器學習之最近鄰算法TensorFlow實現

執行計算圖並計算錯誤率

機器學習之最近鄰算法TensorFlow實現

結語

最近鄰算法是一個簡單有效的基礎機器學習算法，但對訓練數據集敏感，即噪聲敏感（錯誤的分類數據將導致錯誤的分類預測值）。也對訓練數據集有一定的要求，在各個分類結果的值空間中，訓練數據必須存在（待預測數據點需要計算最近鄰，如果值空間的訓練數據不存在，所得到的最近鄰其實已經很遠了）。也正是由於算法每次都使用整個訓練數據集，最近鄰算法不是高效的。當數據集巨大時，計算效率也是不可接受的。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'Python的概念化知識、優化技巧和常見算法性能優化（高級下篇）'

"6、字典實現原理CPython中使用偽隨機探測的散列表作為字典底層數據結構。只有可哈希對象才能作為字典的鍵。如果一個對象有一個在整個生命週期都不變的散列值，而且這個值可以與其他對象進行比較，那麼這個對象就是可哈希Python中所有不可變的內置類型都是可哈希的。可變（列表，...

Python 算法數據結構 XML 編譯器 2019-09-17

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'用Python控制Excel實現自動化辦公！附全套學習教程'

"1.安裝2.操作一個簡單的Excel文檔操作註釋及代碼：操作完成後，數據存儲結果如下：3. 操作簡單Excel文檔並添加數據格式操作代碼如下：附帶數據格式的定義操作效果如圖所示：4.Excel中添加不同類型的數據操作代碼如下：將不同的數據按照指定的格式添加到文件中代碼執行...

Excel Python 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習雲計算需要具備哪些知識結構'

"首先，雲計算需要一個龐大的技術體系作為支撐，隨著雲計算逐漸從IaaS向PaaS和SaaS轉換，雲計算的技術生態也在不斷髮展和完善，雲計算自身的功能邊界也在不斷得到拓展，相信在產業互聯網階段，雲計算將進一步深入到產業領域，打造出更多基於行業的“全棧雲”。從技術體系結構上來看...

雲計算 Linux 數據庫操作系統編程語言技術物聯網 IaaS SaaS Docker Java 人工智能 2019-09-13

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'競價排名服務中的算法運用之法律風險評析'

"背景隨著人工智能技術在互聯網領域的廣泛應用，無處不在的數據和算法對互聯網應用的各個領域進行了全面的革新。人工智能技術的不斷髮展必將持續造福人類社會，但是人工智能技術的廣泛應用也給人類社會帶來了隱私保護、算法歧視、網絡安全等問題。搜索引擎服務平臺在互聯網時代承擔了信息接入口...

算法搜索引擎人工智能網絡安全技術法律電子商務大數據搜狗百度數學淘寶網文章編程語言 2019-09-12

'用PLC實現流量累加算法講解'

"在使用s7-1200PLC編寫程序的時候，如果項目上需要用到流量累積功能，但是本款PLC並沒有自帶流量累積功能塊。這時，就需要我們組態工程師自己編寫一個具有流量累積功能程序，或者將該程序封裝為FB塊或者FC塊。本文以封裝FB塊為例。第一步：在程序塊目錄下單擊添加新塊，彈出...

算法編程語言 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'「雜談」什麼是我心目中深度學習算法工程師的標準'

"有三AI平臺只專心做原創輸出很少扯淡也不蹭熱點，不過最近詢問的朋友多了，不得不統一寫篇文章來回答一下這個大家都很關心的問題，當然，這僅僅是個人觀點。作者&編輯 | 言有三目前利用深度學習這個工具可以做很多事情，各大領域(圖像，語音，NLP等)，各大行業(娛樂，金融...

人工智能算法工程師人生第一份工作 Python 招聘文章技術設計金融不完美媽媽 C語言 GitHub 數學麻將大眾汽車 Linux 2019-09-11

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'對話Swami：為什麼數萬個客戶選擇AWS實施機器學習？'

"作者|小葳8月底，以“智聯世界無限可能”為主題的2019世界人工智能大會（WAIC）成為科技界最受關注的盛會。AI應用落地成為今年WAIC的最大亮點之一。目前，中國人工智能產業正進入落地實踐階段。據相關機構測算，到2020年我國人工智能產業規模有望突破1600億元，帶動...

機器學習 2019世界人工智能大會 Amazon EC2 技術大數據亞馬遜公司虛擬機設計雲計算工程師算法無人駕駛 NoSQL 數據庫 SaaS 2019-09-08

'瞭解學習樂高機器人和少兒編程的關鍵問題'

"樂高的機器人編程和代碼編程，說的再詳細一點，寫一篇更明白的文章，供大家參考。樂高機器人就是一種比較簡單的編程語言。編程者不需要自己去敲代碼，只需要將功能界面上的麼一個不一樣的了指令方框，拖到主界面上，接下來對指令框做一些參數設置這樣的操作，在有什麼好處呢？孩子一開始接觸編...

樂高積木機器人編程語言不完美媽媽程序員人生第一份工作 2019-09-08

'Python實現四種方法求解計算階乘和（1！+2！+3！+...+n！）'

"求解給定數字的階乘是非常簡單的一件事，用Python來實現也是非常簡單的，這裡的問題是給你一堆連續數字，求解他們的階乘總和，這裡我一共想到了4種不同的實現方法來解決上述問題，並對其做了擴充，上面是連續數字的階乘和，我給的方法只需要稍加修改同樣可以求解不連續數字的階乘和，下...

Python 2019-09-07

'數據科學家不可不知的10種機器學習方法'

"作者 | CDA數據分析師10 machine learning methods that every data scientist should know機器學習是研究和工業中的熱門話題，新方法一直在發展。該領域的速度和複雜性使得即使對於專家而言也難以跟上新技術 - 並...

機器學習算法技術可視化技術人工智能數學隨機森林貨車建築 2019-09-07

推薦中...