哈爾濱創優才智帶你揭開機器學習的面紗！

機器學習數據挖掘人工智能金融哈爾濱創優才智哈爾濱創優才智 2017-09-29

摘要：你周圍的人是否都在談論著“機器學習”？而你是否也聽說過一些算法技術卻仍舊缺乏一個全局的認識？本文也許就是一個好的起點……

哈爾濱創優才智帶你揭開機器學習的面紗！

你周圍的人是否都在談論著“機器學習”？而你是否也聽說過一些算法技術卻仍舊缺乏一個全局的認識？本文也許就是一個好的起點……

智力的新紀元

在科學界，機器學習是目前很熱門的話題。通過把計算機和人類的能力相結合，一些相當複雜甚至是難以想象的問題正在被逐個突破。

如今的機器可以更容易地處理不斷產生的大量數據，也能夠對複雜的科學發現進行破譯。另一方面，研究人員已經承認機器學習具有用於廣泛領域的潛力，並且最終可以付諸實踐。

當開始著手研究機器學習，我們會發現這其中很多的算法技術對於統計學家、工程師、程序員、數學家和金融工程師而言也許並不陌生。這是因為這些算法技術實際上已經被研究很多年了。“機器學習”是一個相對而言的新名詞，但對於數據科學家而言這並不是一個完全陌生的領域。

本文彙總了原作者在研究初時遇到的一些有趣的實例，從而有助於理解機器學習的相關內容是如何聯繫在一起，並列出其知識體系各部分之間的不同之處，最終針對現有的項目，選擇最佳的方案。

雖然本文並沒有提出什麼新的觀點，甚至算不上專業，但原作者希望本文可以幫助那些對入門機器學習仍有疑惑的人。

哈爾濱創優才智帶你揭開機器學習的面紗！

“機器學習”是什麼？

在機器學習領域，我們讓機器自主學習。他們通過給定數據集裡的案例進行學習。人們只需要利用機器得到的結論去改善方案、提高效率、實現自動化流程和任務。

讓我們引用該領域兩位巨擘的話來更精確地解釋：

“機器學習是讓計算機在不被明確編程的情況下運作的科學。” ——安德魯·吳（Coursera）

“一種計算機程序，如果它的任務記為T，用P來測度性能，並通過經驗E來改善的話，它就會不斷地從經驗E中學習，從而滿足某類任務T和性能指標P。”——湯姆·米歇爾（1997）

我曾經聽說過這個！

聽起來，“機器學習”（簡稱為ML）和你之前瞭解的其他科學十分相似。現在，讓我們看看它們之間究竟有什麼不同。

或許，你對“人工智能”（簡稱為AI）更加熟悉。人工智能是通過複製人類的基本意識來開發系統項目從而獨立完成預設好的目標的科學。很大程度上，機器學習可以算作是通過創造算法來調整機器行為從而接近經驗數據的人工智能。

很多機器學習的內容來源於統計學科，只不過叫法不同罷了。與傳統的統計學科不同，在機器學習中機器不對數據做推斷，它得到的結論也不會被最初的諸多假設所限定。回想一下你在統計學中聽到了多少次“假設X服從正態分佈”或者“給定獨立同分布的隨機變量”。你有想過這些假設在現實中真的可能成立嗎？

然而，機器學習方法的一個缺點在於我們很難得到對變量之間關係的直觀解釋，而這恰恰是統計推理所擅長的。為了實現更精確的預測，機器學習得到的模型會變得相當複雜以至於難以去解釋。

失去解釋性是絕大多數數據科學家不願意見到的，但這也是為了解決複雜問題必須付出的代價。通常來說，在機器學習中最重要的是解決整個問題而不需要去分析細節。你能夠不依賴其他技術發現數據背後隱藏的信息嗎？嘗試在下面這個色彩豐富的圖中找出隱藏的三個物體，你能看到什麼？

哈爾濱創優才智帶你揭開機器學習的面紗！

“機器學習”和“數據挖掘”也很相似。然而數據挖掘主要是為了發現數據中未知的模式和關係，機器學習則是在實際應用中通過先前得來的信息來處理新的數據集。

問題的關鍵在於平衡好性能和解釋性的關係，比如說，預測準確性 vs 解釋性。

如果你仍舊對機器學習與其他學科的異同留有困惑，你可以在“這裡”和"這裡"找到機器學習和人工智能、統計、數據挖掘、深度學習的比較。

揭開機器學習的面紗

理解機器學習和學習如何入門最好的方法莫過於理解其知識體系各部分之間的不同之處。熟悉機器學習的人可能知道機器學習的主要模式就是監督學習和無監督學習了。

簡而言之，監督學習就是我們已經通過之前已知的數據知道結果了。

此時，我們想建立一個模型來預測未知數據的結果。我們將已有的數據和結果輸入機器，讓它從這兩者之間的關係中不斷學習從而建立模型。

哈爾濱創優才智帶你揭開機器學習的面紗！

在無監督學習中，我們則是希望發現數據中未知的結構或者是趨勢。原數據不含任何的標籤，但我們希望可以對數據進行整合（分組或者聚類），或是簡化數據（降維、移除不必要的變量或者檢測異常值）。

我們進一步區分這兩個模式的子類別，並在下圖中展示出來：

哈爾濱創優才智帶你揭開機器學習的面紗！

監督學習可以根據預測變量的類型再細分。如果預測變量是連續的，那這就屬於迴歸問題。

而如果預測變量是獨立類別（定性或是定類的離散值），那這就屬於分類問題了。

舉例來說，如下兩圖所示：

預測 S&P500 指數下週的回報率。由於回報率是連續變量，這就是迴歸問題。
預測歐元兌美元的趨勢是上升還是下降。這裡只有兩種可能性：牛市或熊市。這就是分類問題。

哈爾濱創優才智帶你揭開機器學習的面紗！

無監督學習可以再細分為聚類分析、密度估計和降維。

聚類分析中，數據通過相似性或者距離來分組。密度估計中，模式和數據用分佈函數或是定義的形狀表示。降維中，通過移除重複或者不必要的變量實現更簡潔的數據結構。

我們也可以根據學習的類型和所需解決的問題對特定的方法進行分類，如下圖所示：

哈爾濱創優才智帶你揭開機器學習的面紗！

“MLmastery”和“analyticsV”等博文對機器學習主要的算法做了清晰實用的解釋。

其他細節

機器學習技術在應用之前使用“訓練+檢驗”的模式（通常被稱作”交叉驗證“）。

哈爾濱創優才智帶你揭開機器學習的面紗！

機器會不斷地嘗試參數的組合，因此我們要警惕“過擬合”和“運行時間”的問題。在訓練階段過高的準確性往往會造成過度優化，以至於在檢驗階段會有較差的結果。同時，為了減小成本函數到足夠的水平，算法也會花很長時間直至收斂到最終的結果。

關於實際應用

機器學習可謂是無處不在，在日常生活中有大量相關實例，只是我們沒有意識到。比如說，機器學習被用於搜索引擎、過濾垃圾郵件、面部識別、社交網絡分析、市場細分、數據分析、欺詐檢測和風險分析等。

泛泛而談是不足以說明問題的。通過將機器學習用於金融領域的實例，我們能看到將這些複雜的算法用於實際會帶來多大的便利。

無監督學習技術可以用於分析和理解金融數據。比如說，主成分分析（PCA）可以用於資產配置，K 均值可用來債券市場回報率的聚類，其他聚類方法可以再現 S&P 500指數的組成，ISOMAPS 算法可以分類不同行業的股票。

監督學習技術則非常適合用於分析金融數據。它可以實現預測和幫助制定投資風險策略。舉例來說，近鄰算法、神經網絡、決策樹、隨機森林和貝葉斯這些都可以用來監測股市的市場變動趨勢。

————哈爾濱創優才智分享

相關推薦

'揭開Costco火爆的面紗，看清零售業未來發展方向'

"《毅見》是由艾媒諮詢首席分析師張毅擔綱的新經濟深度評論音頻節目，針對新經濟行業熱門話題、模式、現象、趨勢的進行深度剖析，用獨特的視角，讀懂中國新經濟。關注“艾媒報告中心”公眾號，查看“毅見”更多內容。張毅，艾媒諮詢創始人CEO、艾媒研究院院長兼首席分析師、中山大學數字媒體...

萬物嚐鮮節加拿大市場營銷上海分析師金融福布斯大數據金融時報英國華爾街日報 2019-09-17

'構建機器智腦的強大知識庫需面臨的挑戰小議'

"隨著服務機器人產業的進一步發展，將認知能力賦予機器，讓機器“掌握”一定的知識，並利用這些知識更好地為人類服務已經是服務機器人產業乃至整個智能機器人產業進一步發展所面臨的重大問題。大數據為知識工程、智能機器人等領域的發展所帶來的巨大數據紅利，仍有待相關領域的進步消化與利用。...

機器人人工智能大數據技術文化 2019-09-09

'還在糾結學Python還是Java？8張圖帶你全面對比分析，幫你解讀'

"Java和Python兩門語言都是目前非常熱門的語言，可謂北喬峰南慕容，二者不分上下，棋逢對手。但是對於初學者來說，非常困惑，因為時間和精力有限，上手必須要先學一門，到底選那個好呢，今天3分鐘帶你透徹瞭解。1.運行速度Java是靜態語言靜態編譯的，速度上要比Python快...

Python Java 數據庫人工智能工程師機器學習 Android Node.js 人生第一份工作大數據 Kotlin MongoDB 程序員網絡爬蟲 Redis 2019-09-07

'淨網2019丨揭開“套路貸”面紗'

"隨著互聯網金融政策法規和營商環境完善，民間借貸已走上了健康、有序的發展道路，然而以“套路貸”為首的非法借貸仍暗流湧動、處處“挖坑”，著實坑人不淺。我們的身邊常能看見號稱“無利息、無擔保、無抵押”的“三無”小額貸款廣告！這些“糖衣炮彈”便是充滿陷阱的“套路貸”！這些“坑死人...

銀行投資金融信用記錄關愛日人生第一份工作 2019-09-06

'第25屆魯臺經貿洽談會 “1+1+1+7”十大活動將揭開面紗'

"第25屆魯臺經貿洽談會將於9月1日至4日在濰坊舉辦。本屆魯臺會由國務院臺辦和山東省政府主辦,省臺港澳辦、省商務廳和濰坊市政府承辦,臺灣工業總會、商業總會、工商協進會、工商建研會、電機電子工業同業公會、三三企業交流會協辦。本屆魯臺會主題為“匯聚新動能,共享新機遇”,突出山東...

第二十二屆中國農加工投洽會濰坊山東經濟技術臺灣文化金融農村創業設計 2019-09-03

'北大IT教授：這才是學習人工智能最正確的方式，送給小白的你'

"1、學習並掌握一些數學知識高等數學是基礎中的基礎，一切理工科都需要這個打底，數據挖掘、人工智能、模式識別此類跟數據打交道的又尤其需要多元微積分運算基礎線性代數很重要，一般來說線性模型是你最先要考慮的模型，加上很可能要處理多維數據，你需要用線性代數來簡潔清晰的描述問題，為分...

人工智能算法北京大學數學數據結構卡爾·高斯 Square 數據挖掘 2019-09-02

'“數字人民幣”揭開面紗，深圳成為“試驗田”？'

"紙質貨幣可能成為歷史？隨著近幾年移動支付高速普及，人們對“無現金社會”產生豐富遐想。記者注意到，今年8月以來，中國人民銀行（以下簡稱央行）已多次為數字貨幣發聲。而廣東深圳有望成為第一個先行先試的地區。既不是虛擬貨幣也不是電子錢包事實上，從2014年開始，央行就已著手研究發...

數字貨幣中國人民銀行深圳金融移動支付比特幣銀行證券投資基金技術支付寶廣東歷史文章加拿大區塊鏈 2019-08-31

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

'河北自貿試驗區揭開面紗！雄安片區的範圍在這兒！'

"製圖/孫濤8月26日，國務院公佈相關方案，我國新設山東、江蘇、廣西、河北、雲南、黑龍江6個自貿試驗區。當日，《中國（河北）自由貿易試驗區總體方案》正式公佈。河北自貿試驗區涵蓋雄安片區、正定片區、曹妃甸片區、大興機場片區四個片區，是全國唯一一個跨省市的自貿試驗區。根據要...

河北京津冀投資大興曹妃甸金融技術經濟江蘇生物技術山東石家莊能源知識產權航空廣西黑龍江省雲南 2019-08-30

'四個片區，河北自貿區揭開面紗'

"8月26日，國務院公佈相關方案，我國新設山東、江蘇、廣西、河北、雲南、黑龍江6個自貿試驗區。當日，《中國（河北）自由貿易試驗區總體方案》正式公佈。河北自貿試驗區涵蓋雄安片區、正定片區、曹妃甸片區、大興機場片區四個片區，是全國唯一一個跨省市的自貿試驗區。根據要求，河北自貿...

河北京津冀投資曹妃甸技術大興金融經濟山東江蘇生物技術黑龍江省能源石家莊航空廣西知識產權雲南外匯 2019-08-29

'你是否對機器學習模型如何工作感到好奇？它們是否值得信任？'

"全文共1925字，預計學習時長4分鐘圖片來源：unsplash.com/@multamedia你是否對機器學習模型如何工作感到好奇？這些模型內部是如何運作的，它們是否值得信任？本文將全面概述什麼是可解釋人工智能（XAI），以及為什麼需要XAI。讀完本文後，你應該能夠理解X...

人工智能金融癲癇機器人人生第一份工作歷史 2019-08-28

'國匠學院｜機器學習帶來哪些變革？一組數據告訴你'

"人工智能正在全球範圍內蓬勃興起，為經濟社會發展注入了新動能，影響著人們的生產生活方式。製造業是人工智能創新技術的重要應用領域，人工智能與製造業的深度融合正在引發影響深遠的產業變革。對此，不少權威調研機構給出了相關數據預測：機器學習可以讓離散製造業的產品質量提高35％——德...

人工智能技術物聯網算法機器人經濟麥肯錫公司德勤可視化技術 2019-08-25

'4 種你在書裡也學不到的機器學習技能，精髓值得分享'

"在過去幾年，機器學習非常火熱。你可能要問為什麼？其實很簡單，因為它確實對我們的生活很有用。最新的機器學習研究取得了很多突破，在某些任務上的表現甚至已經超越了人類。而且，這個領域也受到了大量資本的青睞，越來越多的從業者積極地投身於這個行業。毋庸置疑，這是一個非常有發展空間的...

機器學習技術算法 MOOC 人工智能深度學習大學設計算法設計軟件跳槽那些事兒 Python 文章 2019-08-24

'上海自貿區臨港揭開面紗金融機構搶灘新片區'

"新浪財經綜合上海自貿區臨港新片區以“五自由”鍛造開放排頭兵來源：經濟參考報□記者王文博何欣榮桑彤北京上海報道隨著擴容方案落地，上海自貿區臨港新片區揭開面紗。在近120平方公里的土地上，高速公路、鐵路縱橫，北臨浦東國際航空港，南接洋山國際樞紐港，坐擁上海貿易、金融...

上海金融經濟中國建設銀行交通銀行銀行投資證券投資基金技術新浪交通外匯中國銀行 2019-08-22

'真正的大數據問題以及為什麼只有機器學習才能解決它'

"為什麼很多公司仍在努力構建從採集數據到獲得洞察力的平穩運行的管道?他們希望投資和採用機器學習算法來分析數據，並做出商業預測。但是，不可避免的是，他們應該意識到算法並不是魔法：如果採用的是垃圾數據，得出的就不會是一流的見解。因此，他們僱傭了一些數據科學家，但通常他們90%的...

大數據人工智能技術數據庫算法通用電氣麻省理工學院軟件豐田汽車法國人生第一份工作市場營銷高德納集團歐洲投資 2019-08-20

'學習編程丨100 本編程開發類技術書籍，帶你成為企業級開發大牛'

"這個列表包括了 100 多本經典技術書籍，涵蓋：計算機系統與網絡、系統架構、算法與數據結構、前端開發、後端開發、移動開發、數據庫、測試、項目與團隊、程序員職業修煉、求職面試和編程相關的經典書籍。這篇文章主要是分類別推薦了該類別所屬的經典書籍列表。每個類別下，從書名就可...

技術電腦算法 MySQL 軟件 Linux C語言數據庫設計編程範型程序員 SQL 數據結構算法設計程序設計設計模式數據挖掘 Wireshark Java 機器學習 Google UNIX Python JavaScript 阿蘭·圖靈雲計算編程語言 Windows 藝術跳槽那些事兒 2019-08-18

'鴻蒙OS神祕面紗揭開，不只是手機備胎，還有這些功能……'

"覽潮網8月13日訊萬眾期待的華為鴻蒙OS系統終於上週正式發佈。這個一出生就揹負眾望的操作系統可以打通智慧屏、穿戴設備、汽車、智能音箱、手機等諸多終端，是全球首個微內核分佈式操作系統。鴻蒙OS系統的發佈，意味著其實現商用，昨日有消息稱，華為或將在年底推出搭載鴻蒙系統的中低...

操作系統智能手機華為公司餘承東華為手機 Google Android 物聯網智能家居技術我的第一部5G手機雲計算軟件 YouTube Facebook 算法 Google Play 家用電器人工智能通信編譯器智能電視穿戴設備設計 2019-08-16

'26個章節帶你領略Python之美，輕鬆學習，快樂編程'

"首先，你瞭解python嗎？Python是一門易讀、易維護，並且被大量用戶所歡迎的、用途廣泛的語言。由於具有豐富和強大的庫，又被稱為膠水語言，Python 極其容易上手，主要源於Python有極其簡單的說明文檔。Python 的應用領域分為系統編程，用戶圖形接口，Inte...

Python 程序員人工智能腳本語言算法數據結構 PyCharm XML 數據庫 UNIX 機器人算術人生第一份工作 2019-08-16

'一種需要拿著遊標卡尺來學習的語言：深入+學習，帶你瞭解Python'

"Python：一種需要拿著遊標卡尺來學習的語言瞭解Python：Python是一款服務器端解釋型開源非編譯腳本語言。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。Python的優勢：Python學習簡單，被譽為“最易學習的語言...

Python 編程語言軟件設計模式雲計算 Django Linux MATLAB 面向對象程序編程腳本語言 Java 大數據人工智能網絡爬蟲工程師物聯網 Flask 技術人生第一份工作算法人民的名義樹莓派 C語言泛函編程黑客程序員 2019-08-14

'影像組學：揭開腫瘤的面紗丨人工智能+醫療'

"腫瘤君和人類的恩怨素來已久，人們往往談癌色變，如臨大敵，唯恐避之不及。實際上，腫瘤君由癌細胞演變而，但癌細胞的出身在科學界尚無定論。大部分人同意勃伏利1914年提出的體細胞突變的理論。根據這一理論，人體細胞內存在與癌症相關的基因，正常情況下它們一直在安靜地沉睡。而一旦這些...

腫瘤人工智能滾蛋吧腫瘤君癌症肺癌胃癌手術兩百年技術醫學技術胃潰瘍肝癌廣東胃炎上海放射科大數據乙型肝炎藥品 2019-08-14

推薦中...