小試ML牛刀——Tensorflow預測房價

機器學習程序員 Google Mac 點融黑幫 2017-06-16

ML(Machine Learning)到底是嘛?

Tom Mitchell於1998年寫到：

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T as measured by P, improves with experiance E

計算機程序根據現有的經驗能夠完成某種任務，達到一定的性能指標，並且隨著經驗的增多，能夠不斷的提升性能。

一、TensorFlow是什麼？

小試ML牛刀——Tensorflow預測房價

TensorFlow是一個採用數據流圖，用於數值計算的開源軟件庫，主要用於機器學習和深度學習，由Google Brain開發，於2015年9月開源。

計算圖（computational graph)

TensorFlow是基於計算圖的框架，在具體介紹TensorFlow之前，我們先看看什麼是計算圖。假設我們有一個需要計算的表達式：y = a * b + c，該表達式包含一個乘法和一個加法，該表達式可以表示為：

上圖完整描述了計算任務的依賴關係，這種有向無環圖就叫做計算圖。

在TensorFlow中主要有以下幾個概念：

Tensor

Tensor（”張量“）是TensorFlow中最重要的數據單元，一個tensor由多維數組構成。

tensor的rank表示其數組的維度，tensor的shape代表每個緯度數據的個數，例如：

3 # 0維張量，即標量, rank = 0, shape = 1

[1. ,2., 3.] # 1維張量，即向量, rank = 1, shape = 3

[[1., 2., 3.,4.], [5., 6., 7.,8.]] # 2維張量，一個2 x 3 的矩陣, rank = 2, shape =3

Operation

執行計算的單元，可以是加減乘除等數學運算，也可以是各種各樣的優化算法，Operation接收0個或多個Tensor，輸出一個Tensor

Node

在計算圖中用於代表Tensor或者Operation

Graph

Graph用於定義整個計算任務，沒有進行任何計算，在TensorFlow中，可以通過查看session.graph_def來得到graph的定義：

node {

name: "a/initial_value"

op: "Const"

attr {

key: "dtype"

value {

type: DT_INT32

}

attr {

key: "value"

value {

tensor {

dtype: DT_INT32

tensor_shape {

}

int_val: 1

}

...

Session

Graph僅僅定義了所有的Node，沒有進行任何計算，而session根據graph的定義分配資源，執行計算任務。

二、安裝

TensorFlow的安裝非常簡單，有興趣的同學可以參考官網(https://www.tensorflow.org/install/)，筆者這裡使用pip在mac上面進行安裝，遇到一個小坑，安裝TensorFlow時出現了[Errno 1] Operation not permitted，遇到相同問題的可以移步這裡(https://stackoverflow.com/questions/32659348/operation-not-permitted-when-on-root-el-capitan-rootless-disabled/32661637)。

三、TensorFlow的使用

假設現在我們有一組Data Set表示房屋的面積以及對應房屋的價格，我們想預測面積為90的房屋價格應該是多少，DataSet如下：

X	Y
40	37.0000
65	72.0164
80	93.0456
115	130.4864
150	153.4161

其中X為房屋的面積，Y為房屋的價格，對於Tom給出的機器學習定義來說，這裡的E就是已有的房屋價格數據，T就是對房屋價格進行預測，P就是房屋價格預測的準確性。

先在座標系中繪製房屋價格數據如下：

觀察上圖，幾乎是一條直線，可以使用linear regression來處理這個問題，來對這些數據進行學習，獲得最優的θ0和θ1，使得平方誤差函數的值最小

擬合函數

h0 = θ0 + θ1 * x

參數

θ0, θ1

損失函數：

其中m為數據集的大小，xi表示第i個數據集輸入，yi表示對應的正確房價。

當使用TensorFlow構建graph時，大致分為5個部分：

1. 為輸入x(對於多特徵問題有多個輸入)與輸出y定義placeholder

2. 定義參數

3. 定義模型結構

4. 定義損失函數

5. 定義優化算法

代碼

定義placeholers與Variables

import tensorflow as tf

# input

x = tf.placeholder(tf.float32, name="x")

# output

y = tf.placeholder(tf.float32, name="y")

# parameter

theta0 = tf.Variable(.5, name="theta0")

theta1 = tf.Variable(.5, name="theta1")

定義模型：

hypothesis = theta0 + theta1 * x

使用平方誤差函數計算損失：

squared_delta = tf.square(hypothesis - y)

loss = tf.reduce_sum(squared_delta) / (2 * 5)

定義優化器：

這裡使用梯度下降算法，學習率設定為0.00001，梯度下降算法會不斷的更新θ0和θ1的值，使損失變小。

learning rate的選取不宜過大或者過小，過大可能導致損失函數無法收斂，過小導致循環的次數增多

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.00001)

training = optimizer.minimize(loss)

進行訓練：

dataSet = {x: [40, 65, 80, 115, 150], y: [37.0000, 72.0164, 93.0456, 130.4864, 153.4161]}

session = tf.Session()

init = tf.global_variables_initializer()

session.run(init)

for i in range(1000):

session.run(training, dataSet)

print(session.run([theta0, theta1]))

print(session.run(loss, dataSet))

訓練1000次之後，得到θ0= 0.50757158, θ1 = 1.0718392, 對比之前的θ0= 0.5, θ1 = 0.5，如圖：

可以看出，在訓練1000次之後，得到的擬合函數明顯優於之前最初的函數，將面積90代入擬合函數，得到價格96.97309958，預測90平米房屋售價約等於97萬。

總結

好了，其實房價是很複雜的，不是僅僅跟面積線性相關的，這裡我忽略掉了很多其他因素，將其簡化為一個單特徵的線性迴歸問題，僅僅是用於簡單介紹ML和TensorFlow的一些基本概念和使用，希望給想要了解ML和TensorFlow的你能有一丟丟幫助。

Link:

1.https://www.tensorflow.org/install

2.https://stackoverflow.com/questions/32659348/operation-not-permitted-when-on-root-el-capitan-rootless-disabled/32661637

小試ML牛刀——Tensorflow預測房價

本文作者：周夢（點融黑幫），就職於點融工程部CRM組，Java程序員一枚，喜歡折騰各種新奇有趣的技術。

相關推薦

'iPhone11破發，拼多多放話將有百億補貼，華爾街預測銷量為2億部'

"2019年9月ipone11首發即破發，新品發售迎來了首輪降價。據悉，在農業銀行的折扣平臺上的iPhone 11預約價降價540元，首發價跌破5000元，達到4959元。還有網友表示，中國銀行8折，比農業銀行還便宜。但有網友反饋，面對不同渠道的手機，需要大家注意分辨是否...

iPhone 華為公司華為手機智能手機 Google 我的第一部5G手機銀行 iPhone 6 華為Mate 中國農業銀行第二十二屆中國農加工投洽會分析師人工智能原汁原味的德系SUV 增強現實 2019-09-17

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'中國二線城市房價直逼倫敦，完爆英國曼城伯明翰'

"文 / 英倫投資客公眾號ID：BuyLondon今天看到一組很有意思的數據想和大家分享。我們都知道，北上廣深的房價早已超過倫敦，這個在我之前的文章裡比較過多次（房價PK：倫敦貴還是上海貴？），今天就不具體展開了。但讓我沒想到的是，經過這幾年的蓬勃發展，中國二線城市的房價也...

倫敦伯明翰英國廈門曼徹斯特投資彭博新聞社上海文章馬耳他程序員深圳 2019-09-12

'「討論」小周預測今後物聯網發展'

"大家好，我是一直在南京工程師領域摸爬滾打的小周。“職稱300問”正在連載，幫你解決所有職稱問題。有需要的工程師們可以關注小周，每天瞭解一點點，職稱路上不發愁。如今，物聯網（IoT）解決方案已經在我們的日常生活和工作中得到廣泛應用。雖然比起“人工智能”、“大數據”、“5G”...

物聯網技術智能家居人工智能我的第一部5G手機機器學習工程師雲計算電腦大數據算法通信語音識別技術人機交互 Alexa Internet Siri 人生第一份工作智能手機 2019-09-09

'AI預測時尚潮流，人工智能可能比你更懂fashion'

"AI預測時尚潮流，人工智能可能比你更懂fashion　來源：前瞻網“審美”一向是被認為是一種非常唯心的、且千人千面的能力，除了自己培養“時尚觸覺”之外別無他法。但近年來，科學家已經研發出了不少比人類還犀利的AI，或許不久之後人們就能使用它預測時尚潮流，甚至讓AI來“創造潮...

人工智能時尚算法服裝克里斯汀·迪奧技術亞馬遜公司設計電腦時裝鞋阿迪達斯法國人生第一份工作路易·威登 Facebook 阿里巴巴集團機器學習市場營銷 IBM 文章 2019-09-07

'BTC搜索量攀升至歷史新高，神祕網友4Chan的幣價預測要實現了？'

"據Trustnodes.com 9月3日報道，BTC的谷歌搜索量突然躍升至有史以來的最高水平，其搜索量與17年牛市的高峰期相比翻了一倍。目前，BTC的搜索量要高於比特幣（bitcoin），而比特幣的搜索量甚至要高於英國脫歐。BTC谷歌全球搜索量激增上圖中搜索量排名前五的國...

比特幣 Google 歷史機器人土耳其英國 2019-09-06

'2019MIT深度學習基礎課程：簡介以及TensorFlow案例概要'

"作者：Lex Fridman編譯：ronghuaiyang導讀2019的MIT的最新深度學習教程，內容包括神經網絡解決計算機視覺、自然語言處理、遊戲、自動駕駛、機器人等領域問題的基礎知識。來一睹為快吧！麻省理工學院深度學習系列課程(6.S091, 6.S093, 6.S0...

深度學習麻省理工學院人工智能自然語言處理尼古拉·哥白尼宇宙機器人歷史語音識別技術機器學習無人駕駛波士頓 2019-08-30

'2019MIT深度學習基礎課程：簡介以及TensorFlow案例概要'

深度學習麻省理工學院人工智能自然語言處理尼古拉·哥白尼宇宙機器人歷史語音識別技術機器學習無人駕駛波士頓 2019-08-26

'Waymo開源部分數據集促進自動駕駛場景理解和行為預測研究'

"(圖片來源：Waymo官網)蓋世汽車訊據外媒報道，Waymo宣佈開源其訓練自動駕駛汽車算法的部分數據集Waymo Open Dataset。Waymo首席科學家Dragomir Anguelov 表示，“該數據集由Waymo自動駕駛汽車收集的高分辨率傳感器數據組成。數據...

無人駕駛算法機器學習工程師設計技術硬件機器人騎行軟件舊金山人生第一份工作 2019-08-24

'高德技術團隊：深度學習在導航速度預測中的探索與實踐'

"導讀駕車導航服務是數字地圖提供的核心功能。通常而言，用戶在發起導航之前會對比高德前端展示的三條路線（如下圖），以決定按照哪條路線行駛。而預估到達時間是用戶參考的最為重要的指標之一。給定一條路線，對應的預估到達時間的計算需要兩組信息輸入，分別是實時路況信息和歷史速度信息（歷...

深度學習技術機器學習歷史旅行 2019-08-18

'案例分享 | 電影票房預測如何用數據搞定？'

"暑期檔期常被寄予“爆款集散地”2018年的暑期檔比往年更豐富文牧野自編自導的《我不是藥神》姜文作品《邪不壓正》黃渤導演處女作《一出好戲》打觀眾懷舊牌的《愛情公寓》等電影算是今年夏天院線裡的種子選手作為今年呼聲最高的電影季競爭激烈口碑爆棚……暑期檔備受熱捧，票房成為...

華語電影警察故事2013 大數據 Google 搜狗技術小時代搜狐視頻投資愛情公寓愛奇藝騰訊視頻騰訊優酷土豆搜狐上海米高梅公司警察故事 Twitter 吳宇森黃渤成龍泰囧姜文邪不壓正歷史江志強一出好戲人生第一份工作 2019-08-12

'預測嬰兒智商，有錢人都想“逆天改命”？'

"全文共2995字，預計學習時長6分鐘某某不孕不育，試管嬰兒，終於有了的孩子。三歲之後，慢慢發現孩子行為異常，智力與同齡孩子拉開差距。醫院一紙判書冷冰冰地告訴她：你的孩子是個智障。這樣的故事每年都以知音體，輪番出現在各大資訊“人間疾苦”版塊首頁。如果有一項胚胎預測技術，能預...

機器學習算法糖尿病試管嬰兒技術遺傳不完美媽媽數據庫生物不孕不育歷史文化乳腺癌大學高血壓人生第一份工作心理學 2019-08-09

'皇馬全勝奪冠？西媒驚天預測：梅西11次戴帽，C羅將攻破35個大門'

"不甘寂寞？驚天預測歐冠戰績隨著各大聯賽的交易窗口進入最後衝刺階段，歐洲足壇也面臨最後的調整機會。而對於各大球隊的陣容調整、季前賽的表現，總喜歡湊熱鬧，拉仇恨的西方媒體從不甘寂寞。其中最大的一個弄潮兒英國電信體育（BT Sport）就聯合Google、Opta與Squawk...

皇家馬德里足球俱樂部歐洲冠軍聯賽利昂內爾·梅西克里斯蒂亞諾·羅納爾多巴塞羅那足球俱樂部拜仁慕尼黑足球俱樂部足球齊內丁·齊達內切爾西足球俱樂部英格蘭足球超級聯賽大數據體育托特納姆熱刺足球俱樂部迪迪埃·德羅巴 Google 馬德里競技俱樂部 2019-08-06

'權威媒體預測歐冠：齊祖建不敗神話，梅西11次戴帽，C羅破第35門'

歐洲冠軍聯賽利昂內爾·梅西皇家馬德里足球俱樂部巴塞羅那足球俱樂部克里斯蒂亞諾·羅納爾多拜仁慕尼黑足球俱樂部齊內丁·齊達內足球切爾西足球俱樂部英格蘭足球超級聯賽迪迪埃·德羅巴體育大數據馬德里競技俱樂部人生第一份工作托特納姆熱刺足球俱樂部 Google 2019-08-06

'科普：一條新的定律預測了量子計算的崛起'

"一項顛覆性的新技術即將出現！而且，這項技術有望將計算能力提升到前所未有的高度。為了能預測“量子計算”的發展速度，谷歌的量子人工智能實驗室主任Hartmut Neven提出了一條新的定律，這條定律與已用來衡量計算機發展超過50年之久的摩爾定律有些類似。但是，我們可以相信“N...

量子計算理論電腦技術超級計算機 Google 筆記本電腦戈登·摩爾物理英特爾智能手機 2019-08-05

'輕鬆體驗TensorFlow 第一個神經網絡：基本分類（Part 1）'

"關於 Jupyter Notebook的使用，可以參考如下鏈接，有詳細的步驟和截圖：Jupyter Notebook神器-免費體驗來自微軟的Azure Notebook基於Jupyter Notebook 快速體驗Python和plot()繪圖方法基於Jupyter No...

人工智能 Firefox Python Azure Linux 中央處理器 BASIC語言 HTML 算法數據庫機器學習服裝微軟 2019-08-04

'超級計算機預測：新賽季曼城94分奪冠皇馬拿歐冠冠軍'

"直播吧7月31日訊谷歌、Opta和Squawka強強聯手，通過大數據預測新賽季。超級計算機預測，曼城將以94分贏得19/20賽季英超冠軍，連續三賽季奪冠；利物浦88分位列第二。英超前六分別是曼城、利物浦、熱刺、切爾西、阿森納和曼聯。超級計算機預測，薩拉赫攻入29球，連續...

超級計算機皇家馬德里足球俱樂部歐洲冠軍聯賽英格蘭足球超級聯賽利物浦足球俱樂部穆罕默德·薩拉赫塞爾希奧·阿奎羅哈里·凱恩拉希姆·斯特林曼徹斯特聯足球俱樂部托特納姆熱刺足球俱樂部阿森納足球俱樂部切爾西足球俱樂部大數據 Google 2019-08-03

'用機器學習預測，手持98k化身吃雞大師'

"全文共4559字，預計學習時長9分鐘近日，《絕地求生》（PUBG）MET亞洲邀請賽中國兩個賽區的7支戰隊戰隊全部退賽的消息驚呆全網。原因很簡單：“有人作弊了，官方卻不管。”《絕地求生》（PUBG）官方稍後也宣稱，因不能確保MET Asia Series：PUBG Clas...

機器學習絕地求生 Kaggle 亞洲 Weka 電子競技設計刺激戰場新聞文章 Qjuediqiushengcijizhanchang 2019-08-02

'TensorFlow中tf.nn.dropout防止過擬合（overfitting）'

"一、什麼是過擬合 (Overfitting)Overfitting 也被稱為過度學習，過度擬合。它是機器學習中常見的問題。最有效的方式是通過識別精度判斷模型是否存在過擬合：比較模型對驗證集和訓練集的識別精度，如果驗證集識別精度大幅低於訓練集，則可以判斷模型存在過擬合。...

機器學習伊蘇人工智能 2019-07-31

'關於TensorFlow，有9件事大家應該要知道'

"作者：Cassie Kozyrkov, Chief Decision Intelligence Engineer, Google.編譯：ronghuaiyang導讀TensorFlow在深度學習框架中，佔據第一的位置已經很久了，而且在可見的未來，也將一直佔據第一的位置。今...

JavaScript Google 人工智能 Python 瀏覽器程序員樹莓派約翰內斯·開普勒跳槽那些事兒 Android Swift語言畢達哥拉斯技術設計物聯網中央處理器硬件 2019-07-29

推薦中...