大數據和IoT環境的數據科學自動化

大數據物聯網機器學習軟件 Intelligentcomputing 2017-04-27

數據科學是對大數據或物聯網（IoT）環境進行的任何分析練習的核心。數據科學涉及廣泛的技術，業務和機器學習算法。數據科學的目的不僅是做機器學習或統計分析，而且還可以從沒有統計知識的用戶理解的數據中得出洞察。

在諸如大數據和物聯網等快節奏的環境中，數據類型可能隨時間而變化，變得難以每次都維護和重新建立模型。這個差距需要一種自動化的方式來管理這些環境中的數據科學算法。數據科學的興起旨在將我們從基於規則的系統轉移到機器自身學習規則的系統中。機器學習使數據科學固有地部分自動化。需要手動干預的數據科學的一半仍然是自動化的。然而，這些領域涉及到人們的經驗和智慧：數據科學家，商業專家，軟件開發人員，數據集成商，目前有助於使數據科學項目運作的人。這使得數據科學的各個方面都難以實現自動化。但是，我們可以將數據科學自動化視為兩級架構，其中：

- 不同的數據科學學科/組件是自動化的

- 所有單獨的自動化組件都是互連的，以形成一個連貫的數據科學系統

我們可以將數據科學系統視為自動化，只要它們足夠能夠在我們拋出數據集時解決我們的問題。此外，應該足夠聰明地向我們提供我們可以理解的語言中的所有可能的解決方案。

數據準備，機器學習，領域知識和結果解釋是成功執行數據科學項目所需的四個主要任務。所有這些任務都必須轉換為自動化模塊，以創建一個自動化的數據科學系統（圖1）。

大數據和IoT環境的數據科學自動化

數據準備自動化

數據準備是每次創建模型時必須完成的重複任務。數據提取，數據清理和數據轉換（例如估算空值和算法特定轉換）是屬於此類別的一些任務。許多組織將這些任務自動化，並將引擎標記為數據科學自動化工具。但是，大多數這些工具使用基於規則的邏輯來自動執行數據預處理任務。這是正確的做法嗎？我們是否需要基於規則的系統來自動化數據科學，這是終止基於規則的系統誕生的？不，我們需要通過機器學習自動進行數據預處理。例如，關於什麼預處理功能必須應用於問題的數據的決定是由機器本身做出的。

特徵工程是需要自動化的另一個數據準備領域。特徵工程是將原始數據轉換為屬性/預測變量的技術，可提高機器學習項目的準確性。特徵工程自動化仍處於初級階段，也是一個積極的研究領域。麻省理工學院的數據科學家正在開發一種能夠從原始數據生成特徵的“深度特徵綜合”算法取得了令人難以置信的進步。

自動機器學習/統計

這是統計程序自動化的數據科學自動化領域。系統根據提供的數據集執行最佳算法。它隱藏了用戶的複雜性和算法的數學複雜性，使其向群眾提供。用戶需要向自動統計學家提供數據。它瞭解數據，創建不同的數學模型，並根據最能說明數據的模型返回結果。自動統計學家是一個複雜的科學，因為它需要系統學習輸入數據模式，找到最佳擬合值，並使用幾種統計和機器學習算法自我優化其參數。這需要各種算法約束的推廣和巨大的計算能力。

通過利用基於雲的服務器來管理高計算能力的需求，自動機器學習逐漸成熟。創建數據產品的組織逐漸包括諸如元學習的功能，基於數據集的元數據自動選擇合適的機器學習算法的過程。像H2O.ai這樣的組織通過引入幾個內置功能來推廣模型構建過程，並提供了許多模型調整選項，可以更好地控制算法。此外，他們已經將超參數調優作為幾乎所有算法的特徵，使數據科學家免於使用不同參數測試模型的繁瑣過程。超參數調整是使機器學習模型重新運行多次的自動化嘗試和錯誤的過程，以確定數據集上的模型的適當參數。

洞察產生自動化

數據科學項目的結果直到和除非業務用戶或沒有統計知識的觀眾理解它才有用。數據科學活動的奶油是講故事的部分，數據科學家以全面透明的方式向人們解釋結果。自動化此任務需要從統計學家友好的結果自動生成用戶友好的文本。自然語言生成（NLG）是當前的前沿框架，可以幫助將語言翻譯成自然語言。 Nlgserv和simplenlg是我們可以用於此任務的兩個NLG框架。此外，我們可以使用馬爾科夫鏈自動生成句子和製作故事。

數據科學自動化的創新已經開始，並將在未來幾年逐漸演變。我們目前正處於一個階段，我們已經開始處理個別數據科學模塊的自動化。從這裡，我們需要轉移到更通用的數據科學平臺，所有模塊都自動化並集成在一起。這是一個變化的開始，就像房間大小的計算機被轉換為信用卡大小的計算機一樣。

相關推薦

'《幽靈行動：斷點》b測大數據出爐玩家累計滅敵123億'

"育碧旗下新作《幽靈行動：斷點（Tom Clancys Ghost Recon: Breakpoint）》在9月5日至9月9日期間進行了Beta測試，今天育碧官方公開了這次Beta測試的大數據統計圖，為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...

幽靈行動育碧軟件大數據 PlayStation Xbox Xbox One 2019-09-19

'成都房價下跌誰先帶頭，3大數據判斷樓市現狀'

"點右上關注，獲得更多樓市信息與房價數據下面是幾篇閱讀量近100萬，收藏率、轉發率最高的文章，值得一看：房產過戶給子女的6種方法，注意其中的隱患，一不小心多付20%樓市風險多：買房交首付時9大注意事項，不能簽字交錢就完事樓市實戰：買房後悔時，七大方法幫你退回房子定金。附法律...

成都二手房大數據購房投資雙流 2019-09-19

'區塊鏈數據溯源是什麼意思？能解決哪些問題？'

"未來世界是數字化社會，人類工作生活的一切痕跡都會在數據端被架構被重新認知。採集數據，解析數據，引導數據便成了一項核心工作。“物聯網+區塊鏈”技術，會將世界變得更加透明，讓更多的人看到並能追求自己的價值。沃爾頓鏈，因此孕育而生。他的願景是，立足數據，溯源真實，讓世界更陽光。...

區塊鏈技術 IBM 物聯網硬件數據庫人生第一份工作跳槽那些事兒食品安全軟件微軟施耐德電氣平安保險大眾汽車我的第一部5G手機思科系統投資 2019-09-19

'雲數據不安全？看企業用戶如何解決'

"雲計算為消費級應用服務了10年，為企業級應用也服務了多年，可是很多企業還處於摸不清雲計算安全邊界的狀態，致使一旦發生雲安全事件，企業與雲服務提供商之間往往相互推諉責任，最終遭殃的卻是隱私數據外洩的普羅大眾。上雲後數據並不會更安全如果追溯到十年前，當公有云廠商開始教育用戶，...

雲計算軟件防火牆 2019-09-19

'4.7萬億！《2019中國餐飲大數據白皮書》出爐透露了這十大機會點'

"在日前舉行的第二十屆中國美食節新聞通氣會上，中國飯店協會會長韓明介紹，今年1月份至7月份，全國餐飲業收入為24937億元，同比增長9.4%。預計全年消費規模將達4.7萬億元。那麼，對於食材企業而言，其中有哪些機會？結合中國飯店協會會長韓明的介紹以及2019中國餐飲大數據白...

快餐中式快餐大數據經濟美食博覽會投資關愛吃貨成長協會 2019-09-19

'如何找對人、選好貨、鋪對場？尼爾森快消零售大數據揭開真相'

"中國商報/中國商網（記者張濤）9月17日，尼爾森發佈了《揭祕高能市場：尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤，實現米級人貨場數據的立體融通。尼爾森表示，報告旨在幫助品牌商和零售商以最快速度瞭解市場...

大數據黃金技術 2019-09-18

'讓人遺憾！阿根廷輸球無緣世界盃冠軍兩大數據表現太差了'

"北京時間9月15日晚上，男籃世界盃決賽打響，阿根廷隊迎戰西班牙隊，經過四節比賽的激戰，阿根廷隊遺憾75-95輸給西班牙隊無緣冠軍，本場比賽阿根廷輸球可以說是輸在了自己的天生短板跟臨場發揮了，球隊兩大方面的表現表現有點糟糕！說阿根廷輸給了天生的短板，是因為球隊陣容的短板，那...

世界盃足球賽阿根廷西班牙大數據路易斯·斯科拉籃球的夏天越投入越精彩 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'優信李成彬：大數據助力二手車行業成長變革'

"優信集團業務產品中心總經理李成彬日前在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長李成彬表示，近幾年行業變化巨大，以電商行業...

大數據二手車技術萬物嚐鮮節人生第一份工作京東商城 2019-09-18

'海盜遊戲《ATLAS》結合大數據制定新計劃，玩家50%時間在海上活動'

"作為全Steam最大的一款航海遊戲，海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉，它有著4.5萬平方公里的地圖以及900多個小島嶼，而玩家則會在這款遊戲裡面和4萬個玩家一起作戰，感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...

大數據航海 Steam 生存遊戲 2019-09-18

'手遊大數據：川渝玩家偏愛棋牌？王者榮耀等MOBA遊戲用戶粘性最高'

"今天（9.17）國內移動互聯網大數據公司QuestMobile，發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大，活躍用戶規模呈現持續向...

網絡遊戲 Qwangzherongyao 大數據市場營銷廣東移動互聯網消除類遊戲四川人生第一份工作 2019-09-18

'淺析大數據技術及其行業產品'

"大數據，IT行業的又一次技術變革，大數據的浪潮洶湧而至，對國家治理、企業決策和個人生活都在產生深遠的影響，並將成為雲計算、物聯網之後信息技術產業領域又一重大創新變革。未來的十年將是一個“大數據”引領的智慧科技的時代、隨著社交網絡的逐漸成熟，移動帶寬迅速提升、雲計算、物聯網...

大數據技術數據庫數據挖掘 NoSQL 算法硬件設計雲計算物聯網 MapReduce 可視化技術投資 SQL GFS 人工智能風行網思科系統經濟歷史社交網絡 Google 2019-09-18

'“蓮蓉蛋黃”月餅銷量最好月餅大數據——銷量同比增52%'

"中新社北京9月12日電 (記者周銳)在中秋節來臨之際，月餅的銷售又一次成為熱門話題。京東大數據研究院日前披露了一份研究報告，展示了節前兩週京東平臺月餅銷售的相關情況。資料圖：上海民眾排隊購買鮮肉月餅。湯彥俊攝從總量上看，2019年中秋節前兩週全國月餅銷量是去年同期的1...

最圓不過中秋月蓮茸大數據蜜餞廣東糕點江蘇河北堅果芝麻豆沙上海奶黃湖北河南京東商城五仁浙江省安徽黑龍江省水果山東葡萄酒海鮮遼寧重慶福建酒貴州 2019-09-18

'市場 | 電力大數據如何服務社會？國網大數據中心促進數據增值變現落地應用'

"2019中國國際智能產業博覽會國家電網展區內，重慶市民劉華龍聚精會神地聽了工作人員講解，感慨地說：“之前與國家電網的接觸僅僅是買電，沒想到你們研發的產品還可以用來支撐政府決策，幫助中小企業解決融資難題。”國家電網有限公司在2019智博會上集中展示了57項泛在電力物聯網建設...

大數據經濟國家電網投資物聯網重慶金融能源數據挖掘人生第一份工作上海可視化技術算法南京安徽 2019-09-18

'14日大數據：美國隊恥辱記錄彙總，老司機當選主席！MVP候選出爐'

"米切爾16分美國勝波蘭鎖第7；博格丹31分塞爾維亞排第51、14日之星：博格丹諾維奇31分4板3助7記三分當選男籃世界盃已經結束了9月14日的兩場排位賽，我們結合各球員的表現評選出了“今日之星”，塞爾維亞後衛博格丹-博格丹諾維奇當選。在塞爾維亞以90-81擊敗捷克的比賽中...

世界盃籃球賽德克·諾維茨基斯蒂芬·庫裡世界盃足球賽路易斯·斯科拉埃文·特納越投入越精彩法國男籃勒布朗·詹姆斯波特蘭開拓者布魯克林籃網維克托·奧拉迪波塞爾維亞丹佛掘金弗拉德·迪瓦茨詹姆斯·哈登印第安納步行者本·華萊士達米恩·利拉德安東尼·戴維斯波蘭凱里·歐文大數據喬爾·恩比德休斯頓火箭亞當·博格丹洛杉磯快船洛杉磯湖人科懷·倫納德密爾沃基雄鹿歐洲費城76人捷克比利·多諾萬傑梅因·奧尼爾蘇聯德國阿根廷阿根廷男籃奧林匹克運動會法國馬丁·喬爾俄羅斯新西蘭沙奎爾·奧尼爾舊金山加拿大 2019-09-18

'優信成長的關鍵在於大數據，李成彬分享全國購成長曆程'

"【獵雲網北京】9月12日報道近日，優信集團業務產品中心總經理李成彬在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長近幾年行業變...

大數據技術二手車萬物嚐鮮節京東商城人生第一份工作 2019-09-18

'提速中國大數據普惠之路，曙光大數據的沉澱與釋放'

"凱文•凱利曾在《失控》中寫到：“最深刻的技術是那些看不見的技術，他們將自己編織進日常生活的細枝末節之中，直到成為人們生活的一部分。”確實如此，今天各種數據正快速融入人們的日常生活之中，讓衣、食、住、行等相關領域的海量數據實現了持續迸發。同時，大數據技術和應用也逐步成為了國...

大數據中科曙光技術經濟雲計算歷史算法普惠公司人生第一份工作 2019-09-18

'《2019中國大數據產業發展白皮書》深度解讀之二'

"近日，由大數據產業生態聯盟聯合賽迪顧問共同完成的《2019中國大數據產業發展白皮書》（以下簡稱《白皮書》）在2019世界計算機大會——“計算機未來：算力驅動萬物互聯”主題論壇上重磅發佈。白皮書對工業大數據做了深度解讀，從政策，新興技術，工業大數據企業與行業用戶合作等方面分...

大數據技術雲計算物聯網人工智能經濟數據挖掘電腦數據庫東方國信 IBM 區塊鏈 2019-09-17

'貴州大學新生大數據，最小14歲，銅仁一中連續三年奪冠'

"開學報到兩天倒計時，2019級小萌新就位！新生都是來自哪裡呢？每個學院的新生人數有多少？男女比例又是怎樣的呢？......礦業學院、土木工程學院喜提最高男女比，每10個新生中僅有1個女生。醫學院榮獲最低男女比，每10個新生中僅有1個男生。為了均衡男女比例，溪溪單方面宣佈軍...

貴州銅仁大數據河北土木工程遵義生活冷知識湖南不完美媽媽苗族 2019-09-17

'10月國慶節前後，A股如何走？歷史十年的大數據告訴你'

"中秋佳節剛剛結束，我們就要迎來十一長假了！那麼對於此次的十一長假來說，節前節後到底A股會如何走呢？筆者用歷史的數據，以及目前的情況來給你分析一下，看看有沒有道理！第一、從數據來看，國慶小長假的節日效應明顯，漲多跌少的概率較大。我們可以看到近十年以來A股的十年國慶前夕表現都...

滬指大數據投資歷史人生第一份工作 2019-09-17

推薦中...