機器學習系列13：機器學習診斷法

機器學習算法人工智能早報 2019-06-05

在機器學習中，我們訓練了一個模型，可能會發現這個模型得到的數據與實際數據偏差太大。這時，通常我們會在如下辦法中選擇去優化我們的算法。

· 得到更多的訓練集;

· 減小特徵的數目;

· 嘗試去增加特徵;

· 增加多項式;

· 增大 λ;

· 減小 λ。

以上這些步驟通常會花費你大量的時間，而且毫無目的地選擇很可能會沒有效果。

為了防止以上的事情發生，減少讓你抓狂的機率，維護世界的和平，我們需要用到機器學習診斷法(Machine learning diagnostic)去決定如何優化我們的算法。

評估假設(Evaluating a Hypothesis)

我們在訓練機器學習模型時，經常會遇到過擬合問題。但何時是過擬合呢?這就需要我們來發現，一種方法是通過畫出函數圖像，例如下面這幅圖就能看出是一個過擬合。

事實上我們擬合的函數經常有很多個特徵，導致函數圖像很難畫出，需要另一種方法——評估假設(Evaluating a Hypothesis)。具體怎麼操作呢?我們一起來看一下。

我們擁有如下數據集，需要把這些數據集隨機按 7:3 的比例劃分為兩類：訓練集和測試集。訓練集用來訓練模型，測試集用來對模型的準確性進行評估。

對於線性迴歸來說，我們就用測試集的代價函數來評估。

對於邏輯迴歸這種分類問題，我們除了可以用測試集的代價函數去解決以外，還可以用測試誤差來計算。

對於這個函數，我們可以這麼理解。如果預測結果與原結果不一致，函數值就為 1，也就是出現誤差;否則函數值為 0。最後求測試誤差求平均值得到最終結果。

模型選擇

對於機器學習，我們可能選擇各種次數的多項式作為模型。但是如何確定多項式的次數才是一個令人頭痛的問題。

我們用 d 來表示選擇模型多項式的次數：

選擇完成後，我們會先用數據集訓練出參數集 θ，根據參數集 θ 計算出對應的代價函數，比較代價函數之後，選擇一個最優的多項式作為模型。

這時候，我們的數據集就不能按照之前的原則進行劃分了，要劃分成 3 部分：訓練集(60%)、交叉驗證集(20%)和測試集(20%)。

首先我們通過訓練集訓練出參數集 θ，然後根據交叉驗證集選擇出最優的多項式模型，最後通過測試集去評估假設。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'投資10億，機器人造機器人！全球最大機器人工廠落戶上海'

"近日，由上海建工五建集團承建的ABB機器人未來工廠項目舉行了開工奠基儀式。建成後，該項目為ABB公司在全球範圍內最大、最先進、最具柔性的機器人工廠。該工廠預計將於2021年投入運營，總投資額達1.5億美元（約10億人民幣）。ABB機器人未來工廠項目舉行開工奠基儀式該工程由...

機器人上海技術上海建工集團機器學習跳槽那些事兒投資 2019-09-18

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'「NLP」如何系統性的學習NLP，有三AI-NLP知識星球等你來'

"文 | 小Dream哥編輯 | 言有三星球開設的必要性時間過的很快，轉眼在有三AI開設NLP專欄已經2個月了。是時候總結下了，我們的NLP專欄按計劃更新了NLP中用的常用的機器學習模型，深度學習特徵抽取器從RNN講到了Transformer，馬上就要更新BERT。基本上聊...

人工智能機器人技術電腦工程師機器學習讀書 2019-09-15

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'蘋果發佈iPhone11系列三款手機，AI技術後置3攝重塑拍攝王者'

"蘋果發佈了iPhone 11、11 Pro和11 Pro MAX特別活動在加州庫比蒂諾的未來主義校園舉行。新手機取代了iPhoneXR, iPhoneXS和iPhone XS MAX2018年年底發佈的設備系列。蘋果(Apple)首席執行官蒂姆·庫克(Tim Cook)在...

iPhone 智能手機技術蘋果公司照相機杜比實驗室人工智能設計機器學習蒂姆·庫克華為公司 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'iPhone 11系列正式亮相！5499起售，標配18W充電頭'

"北京時間9月11日凌晨1點，蘋果2019秋季新品發佈會在加州總部的喬布斯劇院舉行。蘋果正式推出了新一代iPhone 11系列手機，包括iPhone 11和iPhone 11 Pro。iPhone 11——iPhone XR的升級版iPhone 11正面依然沿用劉海屏設計，...

iPhone 智能手機 iOS 蘋果公司設計 iPad GPU 中央處理器機器學習 Mac電腦浴霸 Apple Watch 硬件 iPhone 6s 2019-09-13

'又有一本深度學習方面的入門書要與您見面啦'

"小編告訴您一個好消息，有一本最新的深度學習入門書即將要與您見面。喜歡深度學習的朋友們可以關注一下。深度學習案例精粹（Deep Learning By Example）使用TensorFlow框架，輕鬆理解深度學習算法包含大量案例，快速動手實現深度學習任務可下載配套源碼+...

深度學習人工智能算法機器學習自然語言處理電腦人生第一份工作生物醫學 CNN 讀書 2019-09-13

'華為發佈麒麟990系列 Mate 30首發集成5G'

"9月6日，華為在德國柏林與北京同步發佈了最新的旗艦級芯片——麒麟990系列，該系列包括了5G集成版本與4G版本，它們將針對不同的市場，靈活的面向全球消費者。其中，麒麟990 5G是全球首款旗艦5G SoC芯片，在性能與能效、AI智慧算力及ISP拍攝能力等方面進行全方位升級...

我的第一部5G手機華為公司技術華為Mate 智能手機 GPU 人工智能麒麟啤酒中央處理器設計機器學習原汁原味的德系SUV 列奧納多·達·芬奇 2019-09-13

'都應該瞭解的Python函數式編程+2019最新python學習資料分享'

"文末小編整理了2019最新流出的python400集學習資料希望對大家有幫助謝謝“ 函數式編程（Functional Programming）或者函數程序設計，是一種編程範型。”它將計算機運算視為數學上的函數運算，並且避免使用程序狀態以及變量對象。以上只是簡單的函數式編程...

Python 泛函編程編程範型 Linux C語言機器學習程序設計 2019-09-13

'學習人工智能 100 天后，我得出 5 個結論'

"2019 年 1 月底，我突然意識到，自己對人工智能瞭解非常有限。目前，人工智能對我們的影響越來越大。它保護我們的郵箱免受垃圾郵件的干擾，提供 Alexa 天氣信息更新，為亞馬遜消費者推薦更精準的商品或者為 Netflix 用戶提供觀影建議。每次當我們打開 Twitter...

人工智能機器學習數學深度學習算法吳恩達播客文化凱文·凱利 Google 設計 Facebook Coursera Twitter 達特茅斯學院 Alexa Internet 程序員技術機器人讓夢發生哈兒微軟科幻小說 Netflix 2019-09-12

推薦中...