瞭解人工智能之分類和預測-數據科學中的預測，分類和迴歸分析

機器學習人工智能深度學習科技雲棲社區雲棲社區 2017-08-27

在上一篇中，我概括地解釋了一些主要的人工智能概念，包括機器學習，神經網絡和深度學習。也概述了當前人工智能背後的基本原理，提及了從大量樣本中學習的機器學習系統，解釋了深度學習系統能夠更豐富地展現這些樣例。那接下來我們就來說說利用這些人工智能系統我們今天可以做些什麼，有哪些用途，以及現在的研究領域與方向。

總的來說，我們可以從兩個方面來利用當前的人工智能系統：

完成更出色的數據科學工作

我們長期以來使用傳統統計方法或軟件工程來處理下面這些數據科學領域的工作。但是在有了機器學習系統以後，我們可以做得更好出色:

預測：根據過去的數據預測未來的情況，如天氣預報或股市分析。
分類：區分照片中的是一匹斑馬還是一匹普通的馬；文章的敘述是正面性的還是負面性。
迴歸分析：分析照片中人物的年齡；汽車預期的燃油效率等等。

實現真正的人工智能

機器學習系統還可以完成那些早期計算機系統不能勝任的工作，從這點來看它們也更接近真正的非人類智能：

創造性工作：在學習了大量樣本之後創造出新的事物。
持續學習：通過不斷地試錯，學習完成一些複雜的任務。比如，玩遊戲。

隨著人工智能慢慢從小說情節變成現實生活，上面第一個方面的能力讓人感覺更觸手可及，而第二個方面則還像是科幻小說中的情節。這裡我主要討論關於數據科學的內容，這個系列的第三篇我會圍繞創造性工作和持續學習來展開。

預測未來

從歷史數據推廣到未來的情況，我們也稱之為預測。任何大型的組織或機構都離不開這方面的工作：例如“鑑於去年的情況，明年我們的業績會怎樣？”。通常來說簡單的預測模型可能只涉及幾個因素。比如，通過歷史上同一時間的某地氣溫來推測現在的溫度。而更復雜的模型則會涉及更多的參數，有時甚至會超出人類的計算能力。

我們可以用統計學，機器學習和神經網絡這三種不同的方法來處理不同的問題：

如果我們要解決類似根據歷史數據預測產品的最佳價格這類的常規業務問題，那就可以遵循傳統的財務或統計模型。
如果我們手頭有很多參考因素，但又不知道如何把它們運用於預測工作，那麼就可以參考機器學習的解決方案，從而找到最適合的模型。這種問題往往屬於數據科學的範疇，可以通過複雜的電子表格和編程語言（如R）來解決。
如果我們需要通過一些不太容易理解的數據集進行預測，而這些數據集恰恰又不易轉換為簡單數值的話，那麼神經網絡可能會有它的用武之地。

神經網絡能夠實現與傳統統計學方法相同的數學模型。我寫了一個可以粗略預測氣溫的演示示例。神經網絡可以被看成一個黑盒，從而讓反向工程變得相當困難。相反，使用Excel電子表格的話，其中的模型完全是透明的。兩者孰優孰劣就要看實際的應用場景了。

結論：大多數組織機構並不需要人工智能完成日常財務狀況的預測工作，這樣的預測結果也不容易被驗證或審計。但在許多其他領域，機器學習的方法還是值得一試的。

分類和識別

40年前，人工智能已經被用來對美國郵政的信件進行分類了。自動手寫識別系統通過給定一個字母形式從而選擇它所代表的字母。通過光學字符識別系統，人們明確地告訴機器線條組合映與字符的映射關係。這在當時屬於人工智能的一個例子，但它卻不是“機器學習”。相比之下，當前的神經網絡可以在沒有人類明確指導的情況下，“自己”學習完成某項任務。

深度學習之所以備受矚目，是因為你可以將任何分類問題交給它來解決（只要你有足夠多的樣本來讓其進行學習）。在機器學習出現之前，人工智能系統僅限於人類可以枚舉的所有特徵，例如識別由有限的一組字母，數字和標點符號組成的郵政地址。隨著問題複雜度的增加，人類“導師”本身則成了系統的瓶頸。而機器學習讓我們擺脫了這個困境。

識別圖像

經過訓練的深度學習系統可以非常快速地進行分類任務。自動駕駛汽車使用攝像機和其他傳感器來識別重要的現實世界對象，比如樹木，公共汽車和交通信號燈等。不過，它們還有許多地方需要改進，而這也是自動駕駛汽車還沒真正駛上馬路的原因之一。機器學習系統仍然在視覺識別任務方面還有許多難題需要解決，例如如何在任何照明條件下來準確識別物體，這方面人的眼睛可以相對輕鬆地到達目標。相反的，如果分類任務要求人類受過非常專業的訓練，比如識別腫瘤，深度學習系統可能會做得更出色。畢竟神經網絡系統能在較短的時間內完成大量的樣本學習，而這對於人類則是不太可能的。

識別語言

除了識別字母之外，機器學習系統還可以在語義層面執行語言分類任務。通過查看許多標記過的句子，他們可以被訓練用來回答問題，“這兩個句子是否意味著相同的事情？”，“這家餐廳是正面還是負面？

自然語言系統可以有效的對人類語言進行分析。由於社交媒體的出現，一場文字的海嘯正在向我們襲來。也許再好的自然語言系統也比不上人類的語言能力，但是它卻能夠處理完任意一個社交媒體上所有的文字信息。

總結：深度學習方法特別適用於對複雜的，原始的數據進行分類。如果經過適當的訓練，神經網絡可以在圖像中發現微妙的模式，這在醫學診斷中具有深遠的影響。機器學習也可以應用於理解人類語言，但目前人們還只能把它當成自然語言研究的輔助工具。

迴歸分析

有時我們的分類問題有可能不是非此即彼的明確判斷（“正或負”，“是貓還是狗”）。就好比我們在預測天氣時，不僅有確切的溫度值預測，同樣還可能有“晴天”或“多雲”的分類判斷。這類問題我們就稱為迴歸分析。

和基於時間的預測一樣，在迴歸分析領域，我們已經有了很多現成的算法與技術。大多數情況下，我們並不需要在這個已經很成熟的學科領域使用機器學習系統。我們可以利用神經網絡探索那些新的問題領域。

我認為基於神經網絡的預測已經不僅僅能處理純數字數據了。與之前提到的分類問題一樣，深層神經網絡可以根據各種人類行為數據進行真實價值的預測，比如基於財務報表分析股票波動。

為了驗證我的想法，我用了四萬幅名畫訓練了一個深度學習網絡，然後要求它推測出作品的創作年份。平均來說，它推測出的成畫年代與真實年代有65年左右的誤差。顯然人類專家做出的判斷會更準確，但比起普通人來說這已經是一個不錯的成績了。

瞭解人工智能之分類和預測-數據科學中的預測，分類和迴歸分析

左邊是真實年代，右邊是推測的年代。這裡有完整的代碼，同時這個是項目的筆記，包括了圖表和更多的訓練樣本。

總結：根據在訓練中提取出的特徵，神經網絡可以比傳統的統計模型更好地進行迴歸分析，特別是對那些數據間的相關性並不容易被發現的場景，神經網絡便能發揮它的優勢。

從科學到小說

隨著互聯網的發展，我們面臨著數據的大爆。海量的文本，視頻，音頻數據需要進行處理，而這已經遠遠超出其他技術的能力，不過幸好現在我們有了機器學習這個強大的工具。深層神經網絡的作用不僅僅於此，它還有著創造能力，並”學會“與人類在現實世界中進行互動。請參閱這個系列的第三篇：

本文由北郵@愛可可-愛生活老師推薦，@阿里云云棲社區組織翻譯。

文章原標題《AI Literacy: How artificial intelligence classifies and predicts our world - Part 2: Better data science with prediction, classification, and regression》

作者：Liza Daly 軟件工程師，擔任過Safari 公司的CTO。涉及的領域包括機器學習，數碼藝術和電子讀物出版等。

譯者：friday_012 審閱：

瞭解人工智能之分類和預測-數據科學中的預測，分類和迴歸分析

相關推薦