機器學習實戰及Python實現——機器學習基礎

機器學習編程語言人工智能科技極數蝸牛 2017-04-18

以下內容是《機器學習實戰》讀書筆記，關於該書介紹請見《機器學習實戰及Python實現（推薦一本好書）》一文。本篇是對第1章《機器學習基礎》的相關學習筆記。

該章節主要講了7方面內容，包括機器學習應用場景、概念，主要任務，專業術語、算法選擇、實施步驟，以及Python簡單介紹（優缺點和NumPy庫）。

1.機器學習的應用場景有哪些？

機器學習應用十分廣泛，現已深深融入到我們日常生活中，像照相時的人臉識別、垃圾郵件過濾、購物時產品推薦、手寫數字識別、優惠卷的精準營銷，天氣預測，疾病檢測等。

機器學習實戰及Python實現——機器學習基礎

機器學習應用

2.機器學習是什麼？

機器學習是橫跨計算機科學、工程科學和統計學等多學科的交叉科學，能夠從海量的數據中發現數據規律和有用信息。該學科是人工智能的一個發展方向。

3.機器學習的關鍵術語？

為高效理解和學習該學科，需要掌握關於機器學習的專業術語。以構建鳥類分類系統為例（見下圖）。其中每行被稱為一個實例或樣本；而體重、翼展、腳蹼、後背顏色被稱為屬性或特徵，鳥種類被稱為目標變量。另外，數據類型有數值型、二值型和枚舉型。一般機器學習會分為訓練集和測試集，其中訓練集來訓練模型，而測試集來評估模型的性能。

機器學習實戰及Python實現——機器學習基礎

機器學習術語

4.機器學習的主要任務是什麼？

機器學習的主要任務有兩個，分別是分類和迴歸。分類主要是將數據集劃分到合適的類別中，而回歸是預測數值型數據，通過曲線擬合來預測數據。該兩類算法都被稱為監督算法，因為他們知道預測什麼，即有目標變量。與之對應的是無監督算法，包括聚類、密度估計和降維等。下圖是關於各類算法。

機器學習實戰及Python實現——機器學習基礎

機器學習算法一覽表

5.如何選擇合適機器學習算法？

在選擇合適算法之前，需要考慮兩個問題：一是算法任務目的是什麼，是預測概率還是分類；二是收集的數據是什麼，是圖片、文本、視頻等類型，是否有缺失值和異常值等。可以簡單參考一下圖表。

機器學習算法一覽表

5.如何選擇合適機器學習算法？

機器學習實戰及Python實現——機器學習基礎

機器學習算法選擇

6.機器學習是步驟有哪些？

機器學習步驟包括6步：

（1）收集數據：收集樣本數據。如網絡爬蟲、API、物聯網設備、網絡數據等。在學習的時候可以使用公開的數據集。可參考《極簡瞭解機器學習常用數據集》文章中介紹的數據集。

（2）輸入數據：將收集的數據進行清洗，保證數據格式符合算法或編程操作的樣式。如Python的list格式的。數據類型的格式化，字符型還是數字型。

（3）分析數據：分析數據是否有髒數據，如異常值，缺失值等情況，另外通過分析選擇相關的特徵屬性，減少計算量。

（4）訓練算法：選擇合適算法對模型進行訓練，該步驟是關鍵核心。

（5）測試算法：主要是對第4步訓練的模型，用測試集評估該算法的性能，如準確率。

（6）使用算法：將獲得的算法開發成程序，來執行實際任務，並來反饋是否能夠真正在現實生活中得到應用，並根據實際應用效果來優化算法。

7.Python簡單介紹？優點？缺點？

Python是一門高級面嚮對象語言，主要優點有：

（1）語法清晰，結構簡單，優雅。對於沒有編程經驗的初學者，也是很容易上手。被稱為“可執行偽代碼”。

（2）在各領域應用廣泛，代碼範例比較多，便於快速學習。另外，還有很豐富的數據庫和模塊，如SciPy和NumPy等。

（3）便於操作各種文本文件，如Excel，txt，CSV，圖片等。

但唯一缺點是性能問題，運算效率不如Java和C代碼高。但是可以通過Python調用C編譯的代碼，可以在一定程度上解決性能問題。

機器學習算法中的運算很多是根據矩陣來運算的，而Python中的NumPy函數庫就聚合了該功能。比如矩陣相乘，求矩陣逆，單位矩陣等都很easy。

附：機器學習基礎的思維導圖

機器學習實戰及Python實現——機器學習基礎

機器學習基礎思維導圖

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'Java是什麼？為什麼要學習Java?Java有哪些特點？'

"在正式開始Java學習之前，先來了解幾個關鍵性問題。那就是什麼是Java，為什麼要學習Java，Java 有哪些特點，Java 有哪些機制，如何來學習 Java 等幾個問題。通過這幾個問題讓大家瞭解 Java 的一些內容，從而展開 Java 的學習。1、java是什麼？J...

Java Java虛擬機軟件程序員虛擬機操作系統編程語言網頁遊戲 NetBeans 集成開發環境 Eclipse 設計硬件瀏覽器 UNIX Android 工商銀行文本編輯器 Mac電腦技術中國建設銀行人生第一份工作銀行 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'30周Java學習計劃清單，分享神級教程帶你飛！確定不整一波？'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和JavaSE的學習同步，建議大家研究一下數據結構與算...

Java 算法數據結構程序員 Eclipse 人生第一份工作設計編程語言技術設計模式 Apache 讀書大數據小遊戲集成開發環境 2019-09-18

'微軟亞洲研究院向國內高校教師和從業者推出AI教育與學習共建社區'

"微軟亞洲研究院人工智能教育團隊日前已經創建名為人工智能教育與學習共建社區為國內教師和從業者提供幫助。據介紹該社區是在教育部指導下依託人工智能開放科研教育平臺，由微軟亞洲研究院研發團隊和學術合作部建立。在學習社區中微軟亞洲研究院將提供人工智能應用開發的真實案例，配套的教程以...

微軟人工智能微軟亞洲研究院技術亞洲 Windows Windows 10 2019-09-18

'投資10億，機器人造機器人！全球最大機器人工廠落戶上海'

"近日，由上海建工五建集團承建的ABB機器人未來工廠項目舉行了開工奠基儀式。建成後，該項目為ABB公司在全球範圍內最大、最先進、最具柔性的機器人工廠。該工廠預計將於2021年投入運營，總投資額達1.5億美元（約10億人民幣）。ABB機器人未來工廠項目舉行開工奠基儀式該工程由...

機器人上海技術上海建工集團機器學習跳槽那些事兒投資 2019-09-18

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'學編程時搞不懂邏輯怎麼辦，要不玩個遊戲放鬆學習一下！'

"邏輯學習每位小萌新在學習程序開發的時候，都會遇到邏輯問題，學習的效果甚微，可能就是學習邏輯不夠哦，那麼除了學習，適當的放鬆也是不錯的喲，下面推薦一個遊戲。這個遊戲的名字就叫異常，在其他app商店都可以找到。遊戲介紹《異常》是一個關於AI編程的遊戲。在遊戲中，玩家要幫助虛...

機器人人工智能程序員電腦 2019-09-15

'「NLP」如何系統性的學習NLP，有三AI-NLP知識星球等你來'

"文 | 小Dream哥編輯 | 言有三星球開設的必要性時間過的很快，轉眼在有三AI開設NLP專欄已經2個月了。是時候總結下了，我們的NLP專欄按計劃更新了NLP中用的常用的機器學習模型，深度學習特徵抽取器從RNN講到了Transformer，馬上就要更新BERT。基本上聊...

人工智能機器人技術電腦工程師機器學習讀書 2019-09-15

'數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種學習新範式'

"聯邦學習，提出至今不過兩年而已~作者：Camel編輯：唐裡近日，聯邦學習概念的提出者之一 Blaise Aguëray Arcas 在韓國針對全球做了一個關於聯邦學習的在線workshop。Blaise Aguëray Arcas是2014年加入的谷歌，在此之前在微軟任傑...

人工智能大數據 Google 微軟技術韓國輸入法工程師楊強香港科技大學亞馬遜公司語音合成人生第一份工作 2019-09-15

'AiLearning:一個 GitHub萬星的中文機器學習資源'

"關注微信公眾號：人工智能前沿講習，重磅乾貨，第一時間送達傳送門：ailearning.apachecn.orgGithub：github.com/apachecn/AiLearning這套名叫AI Learning的GitHub資源，彙集了30多名貢獻者的集體智慧，把學習...

GitHub 人工智能自然語言處理算法 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'X戰警再次團滅，機器已經得到火種，哨兵的崛起無法阻擋？'

"大家好，今天給大家吐槽一下X戰警的故事。喬納森·希克曼將重啟之後的X戰警提高到了足夠封神的級別，他不僅在漫畫中加入了諸多細節，也讓X戰警和人類之間的矛盾提高到了另一個級別。之前變種人們還認為自己是地球的一員，但是他們現在已經明白無論是與人類對抗還是讓自己成為超級英雄都是不...

X戰警萬磁王機器人地球人工智能金鋼狼歷史神盾局特工通信設計植物 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'python之父：零基礎學python如何不走彎路！這套教程清單收好'

"1.Python的設計目標1999年，吉多*範羅蘇姆向DARPA提交了一條名為”Computer Programming For Everybody”的資金申請，並在後來說明了他對Python的目標：1.一門簡單直觀的語言並與主要競爭者一樣強大2.開源，以便任何人都可以為...

Python 設計機器學習數據庫 Java 工程師人工智能算法 2019-09-14

推薦中...