Apache Ignite上的TensorFlow

Apache 人工智能 Xeon Python 數據庫深度學習 SQL 大數據電腦機器學習不靠譜的貓 2019-04-06

任何深度學習都是從數據開始的。沒有數據，我們就無法訓練一個深度學習模型，無法評估模型的質量，也無法做出預測。做實驗時，我們習慣使用最簡單的本地數據源，通常是不同格式的文件。這種方法當然非常有效。但是在某種程度上，我們需要更接近生產環境，能夠處理大數據變得非常重要。這時，Apache Ignite開始發揮作用。

Apache Ignite是一個以內存為中心的分佈式數據庫，緩存和處理平臺，用於事務，分析和流式工作負載。Apache Ignite和TensorFlow之間的現有集成允許您將Apache Ignite用作神經網絡訓練和推理的數據源，以及用於分佈式訓練的檢查點存儲和集群管理器。

分佈式內存數據源

Apache Ignite是以內存為中心的分佈式數據庫，提供快速的數據訪問。它允許您避免硬盤驅動器的限制，在分佈式集群中存儲和操作所需的所有數據。您可以通過使用Ignite數據集來利用Apache Ignite的這些優點。

請注意，Apache Ignite不僅僅是數據庫或數據倉庫與TensorFlow之間的ETL管道的一個步驟。Apache Ignite還是一個HTAP（混合事務/分析處理）系統。通過選擇Apache Ignite和TensorFlow，您可以獲得一個用於事務和分析處理的單一系統，同時還可以使用您的操作和歷史數據進行神經網絡訓練和推理。

以下基準測試結果表明Apache Ignite非常適合單節點數據存儲用例。如果存儲和客戶端放在同一節點上，它允許您實現超過850 MB / s的吞吐量。如果存儲在遠程節點上與客戶端相關，則吞吐量約為800 MB / s。

在一個本地Apache Ignite節點的情況下，Ignite數據集的吞吐量。該基準測試是在2x Xeon E5-2609 v4 1.7GHz上準備的，具有16Gb內存和10 Gb / s網絡（1MB rows and 20MB page size）。

另一個基準測試演示了Ignite Dataset如何與分佈式Apache Ignite集群協同工作。這是Apache Ignite作為HTAP系統的默認用例，它允許您在單個客戶端的10 Gb / s網絡集群上實現超過1 GB / s的讀取吞吐量。

在具有不同節點數（從1到9）的分佈式Apache Ignite群集的情況下，Ignite數據集吞吐量。此基準測試是在2x Xeon E5-2609 v4 1.7GHz上準備的，具有16Gb內存和10Gb / s網絡（1MB rows and 20MB page size）。

測試的用例如下：Apache Ignite緩存（第一組測試中包含不同數量的分區，第二組中有2048個分區）填充10K行，每行1MB，然後TensorFlow客戶端使用Ignite Dataset讀取所有數據。所有節點均由2x Xeon E5-2609 v4 1.7GHz和16Gb內存表示，並通過10Gb / s網絡連接。每個節點都使用默認配置運行Apache Ignite 。

使用Apache Ignite作為具有SQL接口的經典數據庫和同時作為TensorFlow數據源很容易。

表結構如下：

Python示例如下：

輸出：

結構化對象

Apache Ignite允許存儲任何類型的對象。這些對象可以具有任何層次結構。 Ignite Dataset提供了處理此類對象的能力。Python示例代碼如下：

輸出：

神經網絡訓練和其他計算需要轉換，如果使用Ignite Dataset，可以將轉換作為tf.data管道的一部分進行。

[0, 0, 0, 0, ..., 0]

分佈式訓練

TensorFlow是一個機器學習框架，它支持分佈式神經網絡的訓練、推理和其他計算。分佈式神經網絡訓練的主要思想是在數據的每個分區(水平分區)上計算損失函數的梯度(例如誤差的平方)，然後求和得到整個數據集的損失函數梯度。利用這種能力，我們可以計算數據存儲在節點上的梯度，減少它們，最後更新模型參數。它允許您避免節點之間的數據傳輸，從而避免網絡瓶頸。

Apache Ignite使用水平分區在分佈式群集中存儲數據。當我們創建Apache Ignite緩存（或基於SQL的表）時，我們可以指定數據將被分區的分區數。例如，如果Apache Ignite集群包含100臺計算機，並且我們創建了具有1000個分區的緩存，則每臺計算機將維護大約10個數據分區。

Ignite Dataset允許使用分佈式神經網絡訓練（使用TensorFlow）和Apache Ignite分區。Ignite Dataset是一個可以在遠程worker上執行的計算圖操作。遠程worker可以通過為worker進程(如IGNITE_DATASET_HOST、IGNITE_DATASET_PORT或IGNITE_DATASET_PART)設置相應的環境變量來覆蓋Ignite數據集參數（如IGNITE_DATASET_HOST, IGNITE_DATASET_PORT或IGNITE_DATASET_PART）。使用這種重寫方法，我們可以為每個worker分配一個特定的分區，以便一個worker處理一個分區，同時透明地處理單個數據集。

Apache Ignite還允許您使用TensorFlow高級Estimator API運行分佈式訓練。該功能基於TensorFlow分佈式培訓的獨立客戶端模式，Apache Ignite扮演數據源和集群管理器的角色。

檢查點存儲

除數據庫功能外，Apache Ignite還提供名為IGFS的分佈式文件系統。IGFS提供與Hadoop HDFS類似的功能，但僅限於內存中。實際上，除了自己的API之外，IGFS還實現了Hadoop FileSystem API，並且可以透明地插入到Hadoop或Spark部署中。Apache Ignite上的TensorFlow提供了IGFS和TensorFlow之間的集成。該集成基於TensorFlow端的自定義文件系統插件和Apache Ignite端的IGFS Native API。它有許多用例，例如：

可以將狀態檢查點保存到IGFS以確保可靠性和容錯性。
訓練過程通過將事件文件寫入TensorBoard監視的目錄來與TensorBoard進行通信。即使TensorBoard在不同的進程或機器中運行，IGFS也允許此通信工作。

此功能在TensorFlow 1.13中發佈，並將作為TensorFlow 2.0 中tensorflow / io的一部分發布。

SSL連接

Apache Ignite允許通過SSL和身份驗證保護數據傳輸通道。Ignite數據集支持帶身份驗證和不帶身份驗證的SSL連接。

Windows支持

Ignite Dataset與Windows完全兼容。您可以在Windows以及Linux / MacOS系統上將其用作TensorFlow的一部分。

使用示例

以下示例將幫助您輕鬆開始使用此模塊。

嘗試Ignite Dataset的最簡單方法是運行Docker容器並加載MNIST數據，然後使用Ignite Dataset開始與之交互。Docker Hub：dmitrievanthony / ignite-with-mnist。

docker run -it -p 10800:10800 dmitrievanthony/ignite-with-mnist

之後，您將能夠按照以下方式使用它：

IGFS

TensorFlow支持IGFS在TensorFlow 1.13中發佈，並將作為TensorFlow 2.0 中tensorflow / io的一部分發布。使用TensorFlow嘗試IGFS的最簡單方法是使用Apache Ignite + IGFS運行Docker容器，然後使用TensorFlow tf.gfile與之交互。這Docker Hub：dmitrievanthony / ignite-with-igfs。

docker run -it -p 10500:10500 dmitrievanthony/ignite-with-igfs

之後，您將能夠以下列方式使用它：

輸出：

Hello, world!

限制

目前，Ignite Dataset假設緩存中的所有對象具有相同的結構(同構對象)，並且緩存至少包含檢索模式所需的一個對象。另一個限制涉及結構化對象，Ignite Dataset不支持UUID、映射和對象數組，這些可能是對象結構的一部分。

即將推出的TensorFlow 2.0

TensorFlow 2.0中即將發生的變化將導致將此功能分離為tensorflow / io模塊。

相關推薦

'WiFi 6標準正式啟用——iPhone11上已支持，會帶來哪些影響？'

" 9月16日，Wi-Fi聯盟宣佈啟動Wi-Fi6認證計劃，在Wi-Fi 6啟動認證後，一些產品已經獲得了認證，其中包括來自博通、英特爾、Marvell、高通等公司的產品。這意味Wi-Fi6技術標準即將進入我們的工作生活。 WiFi與我們日常生活息息相關的東西。很多小夥伴到...

Wi-Fi 技術我的第一部5G手機路由器智能家居貨車通信電腦物聯網筆記本電腦英特爾美滿電子科技公司三星集團博通高通 iPhone 2019-09-19

'這遊戲上線就涼涼，卻因3年後一個更新，逆襲登上steam銷量榜首'

"大家好，這裡是正驚遊戲，我是正驚小弟。網上有句話是這樣說的：你只管努力，其他的交給天翼……哦，錯了，是天意。這話俗中帶著真理，真理中帶著倔強，倔強中帶著希望。有時候的確如此，一開始不盡人意，但是隻要努力著繼續前行，那麼終將看到希望。小弟覺得，三年前口碑暴跌差點涼透，現在卻...

Steam 無人深空 Xbox One 索尼電腦娛樂彩虹六號 PlayStation 索尼泰坦天降逆襲故事星際公民獨立遊戲巫師我的世界電腦 Xbox Qwodeshijie IGN 英國命運倔強藝術設計師宇宙騰訊人工智能沙盒遊戲 2019-09-19

'蘋果向下，中國向上：創新領導力正在轉移'

"【1】今年秋天，蘋果用"致創新"，作為新品發佈會的主題詞。但無論是有史以來迭代幅度最小的iWatch，屏幕大了一圈的iPad，還是三年不變的4G和劉海屏的新一代iPhone，與人們對"致創新"的期望，都有巨大的落差。9月10日，蒂姆·庫克在會後接受媒體採訪時說，"創新並不...

iPhone 技術我的第一部5G手機 OPPO 華為公司步步高vivo 智能手機蒂姆·庫克諾基亞三星集團人工智能英特爾 GPU 通信設計 Apple Watch iPad 史蒂夫·喬布斯 Siri 攝影小米手機 2019-09-19

'800元配Intel雙核電腦：家用辦公，鋪面上記賬打印上網，經濟實用'

"大家好，我是成都電腦IT民工老陳，來成都創業快四年了。今天為大家推薦一套普通家用辦公電腦主機配置，這是面對絕大多數要求不高的，用電腦就記個賬，上個網，打印個單據什麼的。很多人在組裝電腦的時候，總認為電腦一般至少三四千元吧，不可能很便宜，所以在不懂電腦硬件知識的情況下，去...

電腦英特爾中央處理器組裝電腦臺電科技硬件華碩電腦金士頓科技成都賽揚經濟 DIY 收藏創業 2019-09-19

'一汽旗下出行平臺“旗妙出行”正式上線'

"9月17日，一汽集團旗下出行平臺“旗妙出行”的官微發佈信息顯示，“旗妙出行”平臺今日正式上線。目前，旗妙出行App已陸續登陸蘋果APP Store及各大Android應用商店。據旗妙出行APP顯示，該平臺已在北上廣深等57個城市開通服務。旗妙出行定位為中高端政務、公務、商...

中國第一汽車集團技術吉利汽車廣州汽車集團股份有限公司大數據上汽集團交通原汁原味的德系SUV 長春 Android 無人駕駛蘋果公司 2019-09-19

'iPhone 11 上的「新 WiFi」到底是什麼？它是怎麼用的？'

Wi-Fi 我的第一部5G手機技術路由器智能家居電腦通信物聯網筆記本電腦高通美滿電子科技公司博通 iPhone 貨車英特爾三星集團 2019-09-19

'只需3步，在win10上查看蘋果手機拍的HEIC照片視頻，別說你不知道'

"HEIF（高效圖像文件格式）是由運動圖像專家組（MPEG）開發的用於存儲和共享圖像和圖像序列的一種圖像格式，是圖像和視頻的容器，這類文件的擴展名為.heic 或.heif。HEIF能在相同質量情況下佔用更小的磁盤空間，所以這種格式最大的特點是節省空間。HEIF圖像編碼用的...

Windows 10 iPhone 瀏覽器 Windows 微軟 Android iOS 蘋果公司電腦 Google 2019-09-19

'一起來捉妖PVP系統即將上線和擂臺有什麼區別'

"一起來捉妖體驗服進行了一次大更新之後，養成系統、PVP系統、妖靈皮膚系統等全部都已經上線測試，包括大家催了很久的圈主轉讓系統也已經上線，這其中玩家除了養成系統之外，肯定最關心PVP系統了，來看看PVP系統和擂臺系統有什麼區別吧。擂臺系統分為攻擂和守擂，攻擂的一方是手動操控...

電腦 2019-09-19

'如何讓孩子愛上閱讀（一）'

"面對閱讀，很多家長都有這樣的疑問：我的孩子是不會讀，還是不愛讀？為什麼別人家的孩子那麼愛看書，我家的孩子卻只喜歡玩兒？閱讀要從多大開始培養？現在不培養，上學以後是不是很難適應？……很多媽媽想幫孩子，但卻苦於無從下手。培養閱讀需要找老師嗎？需要送去培訓機構嗎？其實家長自己也...

讀書不完美媽媽人工智能技術心理學機器人 2019-09-18

'一週熱點前瞻：蘋果Arcade遊戲訂閱服務與任天堂《織夢島》上線'

"本文系多玩新聞中心原創，未經允許禁止轉載。一、蘋果Arcade訂閱服務上線蘋果旗下游戲訂閱服務Apple Arcade將於9月19日上線，家庭版每月月費為4.99美元，首月免費使用。Apple Arcade將讓使用者可以在iPhone、iPad、Apple TV與Mac電...

任天堂 iPhone 蘋果公司極限脫出冒險遊戲塞爾達傳說 Mac電腦科樂美電腦 CAPCOM Apple TV PlayStation 人工智能檔案 iPad 漂流新聞 2019-09-18

'為什麼德國一把菜刀能賣幾百元，一副墨鏡能賣上千元'

"為什麼德國貨會那麼貴？阿迪達斯、彪馬、雙立人、寶馬、大眾、西門子......無一不與金錢掛鉤，也無一不是品質的象徵。要解開這個問題很複雜，人力成本固然是一個重要原因，但沒有高度自動化的設備，標準化的生產過程，以及精確到令人髮指的匠人精神，就成就不了如今的德國。小編今天就單...

原汁原味的德系SUV 設計技術讓夢發生建築機器人 Ultrasone 阿迪達斯大眾汽車電腦夢想改造家第六季歐洲 2019-09-18

'一週物流事件丨“京東雲箱”上線；銳錮商城宣佈完成C1輪融資'

"政策國家郵政局局長：加快建設中國快遞業全球服務體系9月12日消息，在9月10日舉辦的第三屆中國（杭州）國際快遞業大會上，國家郵政局局長馬軍勝表示，要加快我國快遞業“走出去”步伐，逐步構建起一個“以中國為中心，連接世界各大洲，通達主要目標市場”的全球快遞服務體系。對於我國快...

京東商城馬軍勝中國郵政技術我的第一部5G手機通信人工智能物聯網雲計算西安金融沃爾瑪義烏大數據南寧亞洲 2019-09-18

'專訪vivo團隊：原來NEX 3上的這些設計這麼厲害'

"[PConline 專訪]作為備受用戶關注的vivo旗艦手機NEX 3一經發布就引起了不少消費者的關注。而在9月16日發佈會當天，vivo也專門舉辦了一次關於vivo NEX 3的媒體專訪會，詳細解答用戶們非常關注的一些關於NEX 3的問題。參與媒體專訪會的都是vivo非...

步步高vivo 我的第一部5G手機設計技術產品經理攝影照相機高通算法人工智能中央處理器 GPU 2019-09-18

'想學習生產計劃前，先把這些東西搞明白！計劃專業詞語解釋---上'

"伴隨著當前市場產品個性化、定製化的需求呈現爆發式的增長，反饋到製造型企業的結果就是訂單小了、品種多了。典型的“小批量、多品種、短交期”的生產模式，企業發現，如果沒有一個好的生產計劃來協調生產的話，製造就面臨著各種異常，如停工待料、交期延期等；企業方也迫切需要找到一個好的...

人生第一份工作高能小子終極裝備人力資源電腦 2019-09-18

'工程上的圖像檢索技術基礎概述'

"從圖像特徵說起以人臉識別場景為例，我們通過機器學習算法可以對人臉圖片實現降維，即某張圖片的尺寸是64*64的RGB圖像，那麼這個圖像的維度就是64*64*3 = 12288維。直接將這個維度用於圖像識別顯然是不合適的，這是圖像的原始維度，不是圖像的特徵。提取圖像特徵的過程...

算法 Spark 數據庫技術機器學習 2019-09-18

'共建“一帶一路”實現互利共贏攜手推動務實合作邁上新臺階'

"據重慶日報消息近日，正在新加坡訪問的市委書記陳敏爾出席中國（重慶）-新加坡經濟與貿易合作論壇並致辭，見證中新（重慶）國際互聯網數據專用通道開通和渝新27項合作協議簽署，推動中新（重慶）戰略性互聯互通示範項目高質量發展，促進雙方務實合作邁上新臺階。新加坡貿工部長陳振聲，新...

重慶技術大數據新加坡陳敏爾投資金融經濟洪小勇東南亞國家聯盟家住長江邊文化習近平可視化技術電子商務歷史 2019-09-18

'勁爆熱點！英雄聯盟手遊有望年底上線'

"作為MOBA手遊領域的領頭羊，《王者榮耀》，幾乎每位兄弟手機裡都會有這款隨身隨地拿起手機就開黑的遊戲，即使沒有玩過大家也應該聽過吧，無論人氣，收入，影響力都堪稱手遊界的“一哥”但是最近有消息爆料稱《英雄聯盟手遊》有望在年底上線，相信英雄聯盟大家都會也會知道端遊的MOBA“...

英雄聯盟王者聯盟 Riot Games 騰訊文章電腦讀書 2019-09-17

'有人從全新911上挖掘出了590匹馬力卻一顆螺絲未動'

"工程中心決定從發動機電腦入手，花費好一番力氣之後，經過重新調校的ECU立即從3.0L渦輪增壓六缸發動內解鎖出200匹馬力，而且居然沒有動一顆螺絲、一個扳手，厲害厲害！這樣一來，即使是最最普通的Carrera以及高階的Carrera S，現已具備同上一代Turbo S同樣高...

電腦英國 2019-09-17

'一週熱點前瞻：蘋果Arcade遊戲訂閱服務上線'

iPhone 極限脫出蘋果公司冒險遊戲塞爾達傳說 Mac電腦 Apple TV 科樂美 PlayStation 電腦 CAPCOM 人工智能檔案 iPad 漂流新聞 2019-09-17

'妻子機器人上線日本科技圈，為實現逼真內部結構，設計者費盡心思'

"早在互聯網剛剛興起的時代，就有很多科技工作者對未來的智能AI機器人提出了設想，他們認為，未來的機器人一定會走進千家萬戶，成為人們生活中方方面面的得力助手，並且會在一定程度上顛覆人們對傳統生活的固有觀念。這主要是由於日本發明了一款女子機器人，機器人在很大程度上按照一比一的外...

機器人掃地機器人日本設計人工智能技術人生第一份工作 2019-09-17

推薦中...