心得｜XGBoost從基礎到實戰，上這4節課就夠了

編程語言 Linux Windows 機器學習 AI100 2017-06-22

同學們好！

經過2個週末4天上課

小編隱約感覺離機器學習又近了辣麼一丟丟

原因是身為賣課的確保直播順利的小編

跟著大家一起上了AI100的第一門直播課

《XGBoost 從基礎到實戰》

原本沒神馬基礎的小編

想象聽課時心情是這樣的

▼

心得｜XGBoost從基礎到實戰，上這4節課就夠了

並且有些條件反射也是無法控制的

▼

心得｜XGBoost從基礎到實戰，上這4節課就夠了

然額，聽完全部課程下來

面對敲耐心認真的講師

熱心互助探討的同學們

小編只想筆！！芯！！

心得｜XGBoost從基礎到實戰，上這4節課就夠了

下面將本次課程花絮及總結分享出來

感染更多的小夥伴加入組織

先來一波買家秀

課堂上小夥伴的調戲評價

心得｜XGBoost從基礎到實戰，上這4節課就夠了

課後回訪小夥伴

心得｜XGBoost從基礎到實戰，上這4節課就夠了

課程頁面買家秀

心得｜XGBoost從基礎到實戰，上這4節課就夠了

（木有水軍童叟無欺）

心得｜XGBoost從基礎到實戰，上這4節課就夠了

再來感受一下交流群

心得｜XGBoost從基礎到實戰，上這4節課就夠了

一天不分享點東西就難受

1. xgbooost安裝

1) Windows和Linux下的安裝指南 by:燕子

http://blog.csdn.net/xizero00/article/details/73008330

2) Win10下的安裝指南：

這裡有個win10的，基本follow 官網安裝步驟 by:燕子 http://blog.csdn.net/xxzhangx/article/details/54908500

3) 加速git等命令的方法： by:開心的派大星

https://91tianlu.me/knowledgebase.php?action=displayarticle&id=7

4) 在windows下用Linux命令的方法： by: 開心的派大星

https://mp.weixin.qq.com/s?__biz=MzA4NzQzMzU4Mg==&mid=2652917522&idx=3&sn=42f48492add0fdb9d8b5bb94a92853d6

如果用的是windows，想在上面用linux，可以裝雙系統或者是裝虛擬機還有一個比較好的辦法，就是docker

5）Gordon Doo：xgboost 安裝 http://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost

可以download 這個，然後pip install whl文件。

補充：whl格式本質上是一個壓縮包，裡面包含了py文件，以及經過編譯的pyd文件。使得可以在不具備編譯環境的情況下，選擇合適自己的python環境進行安裝。安裝方法很簡單，進入命令行輸入：

pip install xxxx.whl

或者如果是升級

pip install -U xxxx.whl

最好別用gcc7 肯定編譯出問題修改還麻煩不一定成功。by:土豆

2. graphviz安裝

MAC裡，我是 brew install graphviz 解決的問題 by:土豆

linux裡我是 pip install graphviz by: 開心的派大星

3. GPU加速

GPU Accelerated XGBoost by: 開心的派大星

http://dmlc.ml/2016/12/14/GPU-accelerated-xgboost.html

4. Spark

A Full Integration of XGBoost and Apache Spark by: 開心的派大星

http://dmlc.ml/2016/10/26/a-full-integration-of-xgboost-and-spark.html

5. 參數調整

一個調整參數的利器： by: 開心的派大星

reiinakano/xcessiv: A web-based application for quick, scalable, and automated hyperparameter tuning and stacked ensembling in Python.

https://github.com/reiinakano/xcessiv

6. 行業應用

CTR預估中GBDT與LR融合方案 by: Goron Doo推薦

http://m.blog.csdn.net/lilyth_lilyth/article/details/48032119#0-tsina-1-63291-397232819ff9a47a7b7e80a40613cfe1

基本思想：用GBDT提取特徵，然後將特徵送入LR分類器，實現CTR預估

GBDT特徵提取：將樣本x送入GBDT的每棵樹，得到該樣本在樹中葉子結點的信息作為特徵。

在XGBoost路上棋逢對手

1. 不均衡數據處理

開心的派大星分享：解決真實世界問題：如何在不平衡類上使用機器學習？

http://yuenshome.space/?p=3554

開心的派大星進一步解釋了SMOTE：就是合成新樣本的方法，這個想法很有意思。

已知同一（少數）類的樣本，將這一類下的兩個臨近的樣本點連接起來，連線中間的位置作為新的樣本，通過該方式合成新樣本。

心得｜XGBoost從基礎到實戰，上這4節課就夠了

咖喱牛肉土豆：我比較贊同4改進算法。增加少數類權重。

開心的派大星：或者是在損失計算裡對這些較少類特別處理，給個係數：class_weight

xgboost參數scale_pos_weight就是幹這個用的，可參考demo中Higgs Boson代碼中的實現。

Austen: 負樣本抽樣成幾份，再分別和所有正樣本樣本融合訓練，結果在再求平均也是可以. （派大星點評：bagging的思想）

西瓜：樣本不均衡問題，我覺得是有個隱含前提的，那就是真實的分佈應該是均衡的。有些情況，比如訪問某網站男女比例，真實就是4:1，你訓練的時候樣本就是4:1的，你均衡一下反而不好

Austen：不平衡數據下的評判標準通常可以通過auc,f1等來進行評價，如果正樣本過少的情況下好像可以用異常檢測

超nice冒老師答疑摘選

心得｜XGBoost從基礎到實戰，上這4節課就夠了

SO 木有老師指導的課程不完美

Q: xgboost用於可用於迴歸嗎？

A:課程示例程序有兩類分類（蘑菇分類、Higgs Bosons）和多類分類任務（Otto）。Xgboost也可用於迴歸和排序，可參考xgboost文檔：

https://github.com/dmlc/xgboost/tree/master/demo

Q:One-hot編碼

A:one-hot 是一種將類別型特徵轉換為數值型特徵的一種方式,。若某類別型特徵共有K種可能的取值，則這維特徵 one-hot 編碼後變成了K維，即若第 i 個樣本的特徵取值為 xi=k , 則其輸出的 K 維特徵中第 k 維為1，其餘各維為 0。可以參考sklearn的文檔說明:

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

Q:XGBoost對特徵工程敏感？需要像線性迴歸裡面看特徵的相關性，多重共線性什麼的嗎？

A:xgboost對特徵敏感。一種說法是特徵工程覺得了系統性能的上界，好的學習算法能儘可能接近這個上限。

特徵的相關性雖然沒有對線性模型影響那麼大，還是會影響的。如果特徵相關，也是先去相關（直接去掉或PCA降維等）

Q:在用scikit-learn訓練一個分類問題時，比如說支持向量機或者xgb，最後train出來的分類邊界的表達式能不能從代碼中輸出呢？

A:xgboost是非參數模型，不能從代碼中輸出分類邊界。

svm是可以寫出決策邊界的：This parameters can be accessed through the members dual_coef_ which holds the product, support_vectors_ which holds the support vectors, and intercept_ which holds the independent term

請參考

http://scikit-learn.org/stable/modules/svm.html

Q:用xgb如果要給一個模型解釋一般怎麼做？

A:xgboost是集成模型，犧牲了可解釋性。

心得｜XGBoost從基礎到實戰，上這4節課就夠了

看完以上分享，你有沒有心動呢？

如果沒有！

小編換個顏色再問一遍！

你有沒有心動呢？？

快點報名加入組織吧！！

http://edu.ai100.com.cn/course/57

最後小編忍不住賣弄下，請問

如何根據蘑菇的22個特徵判斷蘑菇是否有毒？

知道請留言

不知道就快報名啦～～

一大群小夥伴在課程群裡等著你

熱烈討論共同進步

組隊衝擊各大算法競賽

美女老師為你保駕護航

相關推薦

'從開機到win7桌面，你知道這中間電腦都做了些什麼嗎？'

"大家好，這裡是一濤說電腦，今天給大家分享一下，當我們從按下電腦開機鍵的那一瞬間起直到啟動到windows7桌面這中間電腦都做了些什麼。下面就跟著小編一起來看看吧！瞭解整個過程開機自檢硬件自檢過程當我們按下開機鍵，此時電腦便會讀取BIOS信息，然後開始自我檢查對基層硬件做最...

Windows 7 電腦 Windows Server Windows Windows NT 硬件 Windows 2000 操作系統 Windows XP X86 U盤中央處理器鼠標 2019-09-19

'Docker必備基礎知識，看完這一篇就夠了'

"來源：https://juejin.im/post/5d4522c1f265da03e05af5f5Docker是時下熱門的容器技術，相信作為一名開發人員，你一定聽說過或者使用過，很多人會把Docker理解為一個輕量級虛擬機，但其實Docker與虛擬機(VM)是兩種不同的...

Docker 虛擬機操作系統硬件技術電腦 Linux 雲計算物理軟件中央處理器 Firefox 2019-09-11

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'Linux 問題故障定位，看這一篇就夠了'

"作者：Lucien_168來源：https://www.jianshu.com/p/0bbac570fa4c1. 背景有時候會遇到一些疑難雜症，並且監控插件並不能一眼立馬發現問題的根源。這時候就需要登錄服務器進一步深入分析問題的根源。那麼分析問題需要有一定的技術經驗積累，...

Linux 中央處理器腳本語言技術硬件交換空間電腦 2019-09-03

'誰才是2019最火爆的編程語言，看這篇就夠了'

"一門編程語言就像一個小宇宙，語言中的各種語法概念就像一顆顆星辰，無窮無盡。“學哪種語言有錢途？Python真的像說的那麼好嗎？我要轉行IT行業了，求告知哪種語言能讓我年入百萬......”打開某乎搜索程序員，這種話題的熱度總是最高的，而且這些話題的下面總會有各種各樣的口水...

編程語言 Java JavaScript C語言 Python 微軟程序員程序設計 Google 人生第一份工作技術 PHP Google Trends 搜索引擎 Perl Delphi YouTube EA DICE 文章維基百科百度 Windows 2019-08-28

'還在為軟件被破解感到煩惱？有這幾款軟件加密保護工具就夠了'

"軟件保護的概念是從開發商的角度出發的，強調軟件加密以及不被他人所盜用。為了保護軟件開發商的權益，防止軟件被複制、盜用或未經認證而非法使用軟件，一般採用軟件授權方式對軟件進行認證激活，只有經過認證激活的軟件才能正常使用。隨著軟件普及程度、互聯網技術的發展，以及正版軟件購買用...

軟件虛擬機技術操作系統 Windows OS X 黑客 2019-08-25

'關於ip地址的詳解，看完這篇就夠了'

"前天我們發佈1000路大型網絡監控如何分配ip地址？的內容，有朋友問起什麼是公網ip？什麼是內網ip？為什麼ip地址通常以192.168開頭？，有朋友反映有沒有更基礎的，那我們就從ip地址開始說起。一、特殊的IP地址1、0.0.0.0 嚴格說來，這個奇葩的地址0.0.0....

Windows 路由器操作系統電腦廣播 2019-08-22

'大數據技術，從零基礎到實戰全鏈路視頻+源碼，免費送'

"為什麼要學習大數據？就好比問一個程序員為什麼要學編程！現在的社會是一個高速發展的社會，科技發達，信息流通，人們之間的交流越來越密切，生活也越來越方便，大數據就是這個高科技時代的產物。阿里巴巴創辦人馬雲來臺演講中就提到，未來的時代將不是IT時代，而是DT的時代，DT就是D...

大數據技術 Java 移動互聯網編程語言程序員數據挖掘 Python Scala 信息安全人工智能雲計算物聯網 Hadoop 阿里巴巴集團算法 Spark 電腦 Go語言 Storm 市場營銷 2019-08-19

'新電腦到手或重裝系統後該做些啥？看這篇文章就夠了'

"以下內容來自什麼值得買生活家@碼呆茶前兩天有學妹向我諮詢筆記本購機推薦，以及問我新買的筆記本該怎麼辦。雖然樓主學的好像也是計算機，但之前卻沒有考慮過這個問題，可是在學妹面前怎麼能認慫呢！經過數日的學習與研究，樓主終於總結出了一套適合小白的Windows新機開荒指南...

電腦筆記本電腦固態硬盤 Windows 硬件跳槽那些事兒軟件文章 U盤京東商城機械鍵盤超極本微軟天貓電子商務 2019-08-12

'看完這篇文章，你的Python基礎就差不多了(一)'

"作者：dfface前言本文是基於黑馬程序員2018年的Python基礎班的內容編寫的，以2018年的資料為藍本，2016年的資料為補充，還參考了一些網上的教程，旨在更好地總結Python基礎知識，力求簡明扼要，以供實戰演練時能夠快速查詢遺忘的知識點。學一門語言貴在堅持用它...

Python PyCharm 編程語言集成開發環境文章 Guido 軟件設計程序員程序設計 2019-08-04

'頭條創作，從兩次原創被拒到成為簽約作者，我悟出這4個祕訣'

"人生無趣，要多做些有意思的事大約是兩年前，第一次在朋友圈學習到斜槓青年這個詞。當時的第一反應，我不就是斜槓青年中年嘛。麥瑞克·阿爾伯，《紐約時報》專欄作家，在《雙重職業》一書中指出有一群人，他們不滿足單一職業的生活方式，而是開啟自身的第二甚至第三職業，是擁有多重職業和身份...

文章人生第一份工作比爾·蓋茨微軟蘋果公司創作者來直播騰訊設計馬化騰 Google 施樂紐約時報 IBM Windows 2019-08-03

'ps2019強勢來襲，這些小技巧你get到了嗎'

"作為設計界影響力最大的生產力軟件，Photoshop早已不是做做圖、修修照片那樣簡單，因此它的新功能也格外引人注目。從這個版本開始，Adobe開始逐步放棄老舊的Win7平臺，轉而支持微軟的最新版本Windows 10。這也是繼Office之後，又一個對Win10主動支持的...

Photoshop Adobe Systems 設計軟件鼠標 Windows 10 數學 Windows 日語微軟 Windows 7 2019-08-01

'這臺 300 元的復古掌機讓我回到了無憂無慮的「童年」'

"在我上初中的時候，當時我對於電子產品的熱情還遠沒有像現在這樣博愛，在一個不諳世事的學生眼中，遊戲的魅力是近乎無窮大的。小學時我就對掌機頗有興趣，也曾買過一臺二手的「磚頭 GameBoy」。上了初中以後，每個月等著新的《掌機迷》和《掌機王 SP》雜誌成了學習之餘最期待的事情...

掌上游戲機 Game Boy Advance Game Boy 電子遊戲機高能小子終極裝備智能手機超級任天堂戰略角色扮演遊戲 Linux 電腦設計火焰紋章洛克人虛擬機動畫 2019-08-01

'計算機發展簡史，看這一篇就夠了'

"目前計算機已經跟我們的生活密不可分了，上網購物，銀行轉賬，網絡通信等都有計算機來控制，如果哪一天沒有計算機，我們的生活真是不敢想象。計算機從開始到現在已有五、六十年的發展，可以說發展是相等的迅猛，讓我們看看計算機的發展簡史吧。一、第一臺計算機電子管計算機 (1946-1...

電腦軟件技術操作系統圖像處理專家系統電子商務 COBOL 人工智能編程語言 Fortran 2019-07-24

學4個月起薪15K，有Java基礎到大數據工程師怎樣煉成的？

歷時學4個月，起薪15K，有Java基礎到大數據工程師是怎樣煉成的路線今天，我們來了解一下大數據的三個主要崗位：大數據開發工程師、數據分析/挖掘工程師、算...

大數據工程師 Java 人生第一份工作數據挖掘 Python 算法機器學習技術 Linux 數學 Spark Hive Hadoop Storm 程序員 2019-07-09

做好這4件事，可以在3秒內啟動Windows10，真是太神奇了

一般情況下，Windows 10需要很長的時間才能啟動，尤其是使用傳統機械硬盤的電腦，開機到桌面顯示之前可能需要一分鐘以上，甚至在那之後，它仍然要在後臺加...

Windows 10 Windows Windows 8 操作系統固態硬盤電腦筆記本電腦硬件動畫微軟臺式電腦 2019-07-06

看完這篇文章，你的Python基礎就差不多了

前言本文是基於黑馬程序員2019年的Python基礎班的內容編寫的，以2019年的資料為藍本，2018年的資料為補充，還參考了一些網上的教程，旨在更好地總...

Python PyCharm 編程語言集成開發環境文章軟件 Guido 設計程序員程序設計 2019-07-02

IPv6入門，看這一篇就夠了

本篇文章主要從基礎概念、IPv6的相關網絡工具、關於移動應用在IPv6和IPv4網絡環境中自動降級機制的研究等三個方面介紹了IPv6的入門教程。前言眾所周...

Windows 7 Windows Linux Windows 10 運營商軟件 Pages DNS 瀏覽器 Wireshark Android iOS 電腦文章操作系統 FLOW 2019-06-30

良心帖！看完這篇，你的 Python 入門基礎就差不多了

Python將納入高考內容、小學生教材開始接觸Python、Python列入全國計算機等級考試……全民學Python的話題鋪天蓋地，中國的Python學習...

Python CSDN 網絡爬蟲技術人生第一份工作全國計算機等級考試跳槽那些事兒創業不完美媽媽程序員英語機器學習高考電腦數據挖掘 Scrapy 工程師知乎 2019-06-26

讓python速度提升100倍，輸入這一行代碼就夠了！

python一直被病垢運行速度太慢，但是實際上python的執行效率並不慢，慢的是python用的解釋器Cpython運行效率太差。“一行代碼讓pytho...

Python 編譯器 Linux Sprint LLVM Windows Best Of 大數據 Continuum 2019-06-15

推薦中...