機器學習.AI

機器學習數據挖掘人工智能語音識別我是一個機器人我是一個機器人 2017-08-29

一.機器學習的定義

從廣義上來說，機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說，機器學習是一種通過利用數據，訓練出模型，然後使用模型預測的一種方法。

讓我們具體看一個房價的例子。

拿國民話題的房子來說。現在我手裡有一棟房子需要售賣，我應該給它標上多大的價格？房子的面積是100平方米，價格是100萬，120萬，還是140萬？

很顯然，我希望獲得房價與面積的某種規律。那麼我該如何獲得這個規律？用報紙上的房價平均數據麼？還是參考別人面積相似的？無論哪種，似乎都並不是太靠譜。

我現在希望獲得一個合理的，並且能夠最大程度的反映面積與房價關係的規律。於是我調查了周邊與我房型類似的一些房子，獲得一組數據。這組數據中包含了大大小小房子的面積與價格，如果我能從這組數據中找出面積與價格的規律，那麼我就可以得出房子的價格。

對規律的尋找很簡單，擬合出一條直線，讓它“穿過”所有的點，並且與各個點的距離儘可能的小。

通過這條直線，我獲得了一個能夠最佳反映房價與面積規律的規律。這條直線同時也是一個下式所表明的函數：

房價 = 面積 * a + b

上述中的a、b都是直線的參數。獲得這些參數以後，我就可以計算出房子的價格。

假設a = 0.75,b = 50，則房價 = 100 * 0.75 + 50 = 125萬。這個結果與我前面所列的100萬，120萬，140萬都不一樣。由於這條直線綜合考慮了大部分的情況，因此從“統計”意義上來說，這是一個最合理的預測。

在求解過程中透露出了兩個信息：

1.房價模型是根據擬合的函數類型決定的。如果是直線，那麼擬合出的就是直線方程。如果是其他類型的線，例如拋物線，那麼擬合出的就是拋物線方程。機器學習有眾多算法，一些強力算法可以擬合出複雜的非線性模型，用來反映一些不是直線所能表達的情況。

2.如果我的數據越多，我的模型就越能夠考慮到越多的情況，由此對於新情況的預測效果可能就越好。這是機器學習界“數據為王”思想的一個體現。一般來說(不是絕對)，數據越多，最後機器學習生成的模型預測的效果越好。

通過我擬合直線的過程，我們可以對機器學習過程做一個完整的回顧。首先，我們需要在計算機中存儲歷史的數據。接著，我們將這些數據通過機器學習算法進行處理，這個過程在機器學習中叫做“訓練”，處理的結果可以被我們用來對新的數據進行預測，這個結果一般稱之為“模型”。對新數據的預測過程在機器學習中叫做“預測”。“訓練”與“預測”是機器學習的兩個過程，“模型”則是過程的中間輸出結果，“訓練”產生“模型”，“模型”指導 “預測”。

二.機器學習的範圍

機器學習跟模式識別，統計學習，數據挖掘，計算機視覺，語音識別，自然語言處理等領域有著很深的聯繫。

從範圍上來說，機器學習跟模式識別，統計學習，數據挖掘是類似的，同時，機器學習與其他領域的處理技術的結合，形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此，一般說數據挖掘時，可以等同於說機器學習。同時，我們平常所說的機器學習應用，應該是通用的，不僅僅侷限在結構化數據，還有圖像，音頻等應用。

下圖是機器學習所牽扯的一些相關範圍的學科與研究領域。

機器學習.AI

模式識別

模式識別=機器學習。兩者的主要區別在於前者是從工業界發展起來的概念，後者則主要源自計算機學科。在著名的《Pattern Recognition And Machine Learning》這本書中，Christopher M. Bishop在開頭是這樣說的“模式識別源自工業界，而機器學習來自於計算機學科。不過，它們中的活動可以被視為同一個領域的兩個方面，同時在過去的10 年間，它們都有了長足的發展”。

數據挖掘

數據挖掘=機器學習+數據庫。這幾年數據挖掘的概念實在是太耳熟能詳。幾乎等同於炒作。但凡說數據挖掘都會吹噓數據挖掘如何如何，例如從數據中挖出金子，以及將廢棄的數據轉化為價值等等。但是，我儘管可能會挖出金子，但我也可能挖的是“石頭”啊。這個說法的意思是，數據挖掘僅僅是一種思考方式，告訴我們應該嘗試從數據中挖掘出知識，但不是每個數據都能挖掘出金子的，所以不要神話它。一個系統絕對不會因為上了一個數據挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的)，恰恰相反，一個擁有數據挖掘思維的人員才是關鍵，而且他還必須對數據有深刻的認識，這樣才可能從數據中導出模式指引業務的改善。大部分數據挖掘中的算法是機器學習的算法在數據庫中的優化。

統計學習

統計學習近似等於機器學習。統計學習是個與機器學習高度重疊的學科。因為機器學習中的大多數方法來自統計學，甚至可以認為，統計學的發展促進機器學習的繁榮昌盛。例如著名的支持向量機算法，就是源自統計學科。但是在某種程度上兩者是有分別的，這個分別在於：統計學習者重點關注的是統計模型的發展與優化，偏數學，而機器學習者更關注的是能夠解決問題，偏實踐，因此機器學習研究者會重點研究學習算法在計算機上執行的效率與準確性的提升。

計算機視覺

計算機視覺=圖像處理+機器學習。圖像處理技術用於將圖像處理為適合進入機器學習模型中的輸入，機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用非常的多，例如百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景非常火熱的，同時也是研究的熱門方向。隨著機器學習的新領域深度學習的發展，大大促進了計算機圖像識別的效果，因此未來計算機視覺界的發展前景不可估量。

語音識別

語音識別=語音處理+機器學習。語音識別就是音頻處理技術與機器學習的結合。語音識別技術一般不會單獨使用，一般會結合自然語言處理的相關技術。目前的相關應用有蘋果的語音助手siri等。

自然語言處理

自然語言處理=文本處理+機器學習。自然語言處理技術主要是讓機器理解人類的語言的一門領域。在自然語言處理技術中，大量使用了編譯原理相關的技術，例如詞法分析，語法分析等等，除此之外，在理解這個層面，則使用了語義理解，機器學習等技術。作為唯一由人類自身創造的符號，自然語言處理一直是機器學習界不斷研究的方向。按照百度機器學習專家餘凱的說法“聽與看，說白了就是阿貓和阿狗都會的，而只有語言才是人類獨有的”。如何利用機器學習技術進行自然語言的的深度理解，一直是工業和學術界關注的焦點。

下一章節講機器學習的算法。

相關推薦

'5G與AI的“化學反應”'

"5G與AI（人工智能），這兩個C位大咖，正成為眾多科技盛會的“熱詞”。5G作為下一代移動通信技術，具有高速率、低延時、海量連接等特點，目前正在向商用衝刺。而AI從初級階段到機器學習，已經向深度學習演進，能讓設備精準地與人交互，包括進行語音識別、數據處理等。近期，5G與AI...

我的第一部5G手機人工智能技術網絡安全中國電信中國移動通信算法中國聯通機器學習硬件英特爾深度學習運營商華為公司化學諾基亞高通無人駕駛機器人交通語音識別技術愛立信中興通訊新聞計算複雜性理論 2019-09-19

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'依託“自動駕駛地圖+AI”，四維圖新加碼佈局智慧出行'

" 記者| 楊霞四維圖新正在以全面的技術發展戰略迎接自動駕駛時代的來臨。“AI of Things是未來世界的發展趨勢，AI of Vehicles是我們現階段的重點發展方向。”9月17日，四維圖新CEO程鵬在2019年四維圖新用戶大會的開場主題演講中表示。會上，四維圖新分...

四維圖新人工智能無人駕駛技術大數據商用車算法屏住呼吸智能汽車來了北斗衛星導航系統 BMW 中國電信交通通信證券投資基金操作系統數據挖掘增強現實原汁原味的德系SUV 雷達 2019-09-19

'AI電影修復技術，帶回《亂世佳人》高清版斯嘉麗'

"全文共2163字，預計學習時長4分鐘利用卷積神經網絡和最先進的圖像識別技術，經典老電影將有可能重現光彩。神經網絡可以優化圖像質量，減少電影噪聲，併為老化圖像上色。《亂世佳人》劇照來源：谷歌歷史上第一部電影誕生於19世紀晚期，在電影攝影機上使用賽璐珞膠片拍攝而成。時間來到...

人工智能技術亂世佳人人臉識別電子世界爭霸戰文化機器學習軟件 Google 語言英國歷史 2019-09-19

'深度 | AI賦能醫療器械　5G支持應用創新——智能化醫療軟件發展趨勢分析'

"當前，以人工智能、雲計算、大數據、5G網絡、物聯網等為代表的新一代信息技術迅猛發展，並與醫療器械行業加速融合。可穿戴健康監測設備、人工智能輔助診斷系統等智能化醫療器械加速普及應用，改變傳統疾病預防、檢測、治療模式，為提高健康服務質量提供新手段。傳統醫療軟件主要依託於醫療器...

人工智能技術軟件雲計算大數據深度學習我的第一部5G手機手術兩百年機器人藥品物聯網算法語音識別技術自然語言處理護理數據庫肺癌腫瘤 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'美國專利局對AI專利出手，提12大問題徵求意見，不怕專利流氓'

"郭一璞安妮發自凹非寺量子位出品 | 公眾號 QbitAI谷歌的手裡，握著無數的AI專利，讓每個AI從業者頭疼。比如Geoffrey Hinton老爺子搞的DropOut，谷歌兄弟公司DeepMind手裡的RNN，在法律層面，專利權都歸谷歌所有。這些都是地球上幾乎所...

人工智能 Google 技術算法電腦軟件程序員知識產權法律 GitHub 設計數據庫操作系統斯坦福大學人生第一份工作創業 2019-09-19

'比特大陸發新雲端AI推理芯片！海康陳宗年點出城市大腦兩大陷阱'

"芯潮（ID：aichip001）文 | 心緣芯潮9月17日福州報道，今天上午，比特大陸預告已久的第三代雲端AI推理芯片BM1684終於來了！該芯片採用臺積電12nm工藝製程，Winograd卷積加速下INT8算力可達35.2TOPS ，典型功耗僅16W，為視頻結構化和加...

人工智能技術算法雲計算臺灣積體電路製造公司雷州福州軟件海康威視深度學習大數據設計編譯器經濟 2019-09-19

'人工智能龍頭科大訊飛，公司 AI 業務迎變現拐點，能否騰飛？'

"喜提北京冬奧會官方供應商擁有技術壁壘和領先優勢科大訊飛，能否騰飛？喜提北京冬奧會官方供應商國內主攻智能語音領域的科大訊飛，在陷入“同傳門”的輿論風波近一年後，昨日，迎來高光時刻！在北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會上，科大訊飛喜提官方自動...

科大訊飛人工智能智能家居技術冬季奧林匹克運動會百度人生第一份工作知識產權投資屏住呼吸智能汽車來了語音合成 2019-09-19

'微軟亞洲研究院向國內高校教師和從業者推出AI教育與學習共建社區'

"微軟亞洲研究院人工智能教育團隊日前已經創建名為人工智能教育與學習共建社區為國內教師和從業者提供幫助。據介紹該社區是在教育部指導下依託人工智能開放科研教育平臺，由微軟亞洲研究院研發團隊和學術合作部建立。在學習社區中微軟亞洲研究院將提供人工智能應用開發的真實案例，配套的教程以...

微軟人工智能微軟亞洲研究院技術亞洲 Windows Windows 10 2019-09-18

'想成為音樂大師？AI技術可助你一臂之力'

"全文共2831字，預計學習時長6分鐘技術正在為許多產業帶來革命性變化，音樂行業也不例外，如今，AI已經能夠創作完整的歌曲。這一技術進步對音樂行業以及音樂本身意味著什麼？長期以來，音樂都是一個重要的行業，發展至今，活躍在音樂界的已不再侷限於唱片公司、演唱會主辦方和藝術家們。...

人工智能音樂爵士樂技術機器學習算法軟件電腦演唱會程序員算法設計高能小子終極裝備夏日無處不音樂歌手人生第一份工作蘋果公司反烏托邦詩歌 Apple Music Spotify 爵士貝司 2019-09-18

'Facebook用自然語言教會AI玩轉實時戰略遊戲，項目已經開源'

"魚羊發自凹非寺量子位報道 | 公眾號 QbitAI怎麼教AI打遊戲呢？當然是直接下指令啦。告訴AI造農民，基地就開始唰唰往外吐農民：△下方英文指令：創造新農民指揮農民挖礦造兵工廠，一句話同樣搞定：發現敵方大龍，當然是直接開打啊：前線打得歡，經濟也不能落下：這是來自F...

人工智能策略遊戲 Facebook 即時戰略遊戲設計經濟農民 Xbox 微軟 2019-09-18

'《亂世佳人》高清版斯嘉麗？AI電影修復技術就是這麼牛'

人工智能技術亂世佳人人臉識別電子世界爭霸戰機器學習軟件文化 Google 語言英國歷史 2019-09-18

'投資10億，機器人造機器人！全球最大機器人工廠落戶上海'

"近日，由上海建工五建集團承建的ABB機器人未來工廠項目舉行了開工奠基儀式。建成後，該項目為ABB公司在全球範圍內最大、最先進、最具柔性的機器人工廠。該工廠預計將於2021年投入運營，總投資額達1.5億美元（約10億人民幣）。ABB機器人未來工廠項目舉行開工奠基儀式該工程由...

機器人上海技術上海建工集團機器學習跳槽那些事兒投資 2019-09-18

'AI風控平臺冰鑑科技為何頻受資本青睞？'

"是什麼讓它從眾多金融科技企業中脫穎而出？作者 | 如梭來源 | IPO那點事數據支持 | 勾股大數據“Fintech”是近些年出現獨角獸公司最多的行業之一。這個詞彙是由“Finance”和“Technology”合成，中文翻譯為“金融科技”。而正如這兩個名詞的結合，“金融...

人工智能金融技術銀行算法大數據信用記錄關愛日交通銀行工商銀行南京銀行機器學習投資雲計算數字貨幣經濟電腦工程師卡內基梅隆大學華為公司微軟中國銀行騰訊證券投資基金畢馬威交通頭號大贏家| 理財大賽第二季螞蟻金服首次公開募股人生第一份工作今日頭條對衝基金微軟亞洲研究院 2019-09-17

'半個世紀以來人工智能（AI）領域都有哪些成就？'

"本章試著給出一個適當視角，來看待人工智能（AI），回顧我們所做的工作和取得的成就。我們列出了半個世紀以來在人工智能領域的成就，並討論了最近IBM的沃森-危險邊緣挑戰賽（Watson- Jeopardy Challenge）。我們也權衡了從未達到過人類級別的人工智能的前景。...

人工智能算法萊昂哈德·歐拉 IBM 萊特兄弟演化計算設計電腦普羅米修斯軟件經濟瑪麗·雪萊查爾斯·達爾文動物雪萊文學希臘神話 2019-09-17

'物聯網助推芯片蓬勃發展，雲端AI芯片規模達百億美元'

"文/楊劍勇隨著5G網絡在全球如火如荼建設，以及NB-IoT和LoRa等LPWA低功耗廣域網通信技術應用，支撐百億級海量物聯網設備連接成為可能，將加速物聯網應用落地，面向城市、工業、教育、醫療、車聯網和智能家居等垂直領域得到廣泛應用。並在人工智能技術促進下，信息科技進入全新...

人工智能物聯網智能家居英偉達技術 GPU 英特爾寒武紀無人駕駛深度學習雲計算高通電腦自然語言處理 Google 機器人通信我的第一部5G手機屏住呼吸智能汽車來了語音識別技術中央處理器華為公司阿里巴巴集團 2019-09-17

'一條妙計確保你的AI模型總是有幫助'

"作者 | 慄峰編輯 | 唐裡當我們在討論溫度的時候，我們不會認為自己扔掉了大量的信息。如果我問某人外面有多熱，他們開始列舉各種空氣粒子的位置和速度來說明，那我會趕緊走開。現實是，作為人類，我們對“能提供充足信息”和“有用”之間的區別有著與生俱來的理解能力。我們會告訴別人外...

人工智能蒙娜麗莎的微笑多倫多諾伯特·維納比薩餅 2019-09-17

'華為拿什麼破解AI核心難題？'

"C114訊 9月16日早間消息（舒允文）OpenAI近期發佈的研究顯示，僅2012年以來，人們對於算力的需求增長六年就超過30萬倍，平均每年增長10倍，遠遠超過了摩爾定律的發展速度。作為AI的後入局者，面對AI算力需求的爆發式增長，華為大膽地提出要為業界提供“易獲取、用得...

人工智能華為公司技術雲計算英偉達詹姆斯·瓦特 GPU Google 自然語言處理列奧納多·達·芬奇移動互聯網硬件運營商物聯網納米技術英國電腦穿戴設備特斯拉汽車大數據設計算法交通無人駕駛中央處理器我的第一部5G手機 2019-09-17

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

推薦中...