大數據應用特輯/大數據在醫療領域的應用

大數據 雲計算 移動互聯網 人工智能 數據科技視界 2017-04-12

數據是系統的核心,在面向服務的架構之外,可以考慮面向數據的架構方式。面向數據的服務架構需要支持多數據源異構,支持動態數據和靜態數據,既支持公有云部署又支持私有云部署,提供多種數據應用和數據產品,如下圖所示:

大數據應用特輯/大數據在醫療領域的應用

一般地,為了不影響業務系統的正常運行,會將不同數據源彙集起來,技術的採集與攝取,然後進行數據的存儲及一系列的操作處理, 最終通過各種的解決方案形成數據應用衍生的數據產品。

從開發的角度看,可以分成基礎設施,運營工具,開發工具和解決方案四層,從數據自身來看,也可以分為數據源,動態數據,靜態數據和數據應用4個層次,相互是有交疊的。

數據源

數據源決定了數據的寬度, 數量量決定了數據的厚度。即使是做數據應用,也是和具體的業務領域相關的,數據的價值不是憑空出現的。所以, 業務系統的數據是第一位的,也是最容易獲得,直接的價值也較高。

其次是用戶的行為數據,經管用戶經受了產品本身的誘導和侷限,但用戶的行為數據還是在一定程度上體現的用戶便好。 過去的可用性測試甚至形成了可用性工程,而今,一般都會通過用戶的行為數據來檢驗用戶體驗。

物聯網(IOT)的到來,凸顯了傳感器數據的重要性。傳感器數據是相對高頻的數據,與時間序列相關,可以考慮與時間相關的數據存儲,以及數據的遷移。位置數據可以看作是一種特殊的傳感器數據,通過位置數據可以得到物理上空間位置的描述,是一種非常有用的數據,尤其對移動互聯網應用而言。

文檔數據大多是非結構化數據,一般是文件系統和NoSQL 的勝場。對於很多企業而言,往往紙質文檔數據化的過程,隨著AI技術的發展,尤其是OCR 相關技術的逐漸成熟,所有文檔都是數據資源。

動態數據

動態數據的採集過程與靜態數據是類似的,關鍵在於分析流程,對於動態數據而言,分析是實事發生的。

對於動態數據,需要採用實時處理方法。時延是需要考量的一個關鍵因素,時間就是金錢在這裡體現的淋漓盡致。 通過減少多租戶的資源約束和雲服務的使用可以降低時延,提高性能水平,能夠實時處理大流量數據.

數據流程相似於傳統的ETL流程,在數據提取時同時完成數據的初步轉換和清洗,具體流程還是與目標息息相關的。數據流處理是動態數據處理的核心部分,既可以對動態數據進行進一步的清洗然後存儲,又可以直接引入分析方法,與後面的流式應用連接起來。

數據治理是指從使用零散數據變為使用統一主數據、從具有很少或沒有組織和流程治理到業務範圍內的綜合數據治理、從嘗試處理主數據混亂狀況到主數據井井有條的一個過程。

數據安全是數據本身的安全,主要是指採用加密方法對數據進行主動保護,如數據保密、數據完整性、雙向身份認證等,同時也是數據防護的安全,主要是對數據存儲進行主動防護,如通過磁盤陣列、數據備份、異地容災等手段保證數據的安全。

數據運營是指通過對動態數據的分析挖掘,把隱藏在海量數據中的信息以合規化的形式發佈出去,供數據的消費者使用。動態數據的數據運營是一個非常具有挑戰性的課題。

靜態數據

對於靜態數據的操作,更像是一種批處理形式,是一種離線分析,更像是傳統的OLAP,這樣可以擁有較高性能的處理能力。這意味著先從各種數據源獲取數據,然後再進行分析處理。靜態數據處理分為了兩個階段,例如一個零售終端分析上個月的數據來決定本月的商業活動, 是否能夠根據用戶的購買行為來發放定製化的優惠卷等等。

具體的分析計算既可以再私有云上執行,也可以在公有云上執行。對於一定規模數據,尤其是探索性數據分析,一般都可以在私有云進行計算,甚至直接在私有云上提供數據應用和數據產品。

數據應用

數據應用包含了計算框架,算法,數據的可視化以及具體的應用呈現。不論是企業應用還是移動應用以及交互式Web應用,都可以使用數據計算得到的結果。流式應用和搜索應用都是與計算框架緊密相關的,可以通過Storm 和ElasticSearch 實現,也可以通過Spark 框架實現。

商業智能(BI),傳統上是基於數據倉庫的數據挖掘,發現數據中潛在的價值。而在面向數據的架構中,BI的分析方法可以不變,只改變計算的方式,也可以對分析方法進行演講。

隨機分析是一種探索性數據分析,是一種對數據摸索和嘗試,可以使用Hive,pig,sparkSQL等工具執行,明確進一步探索的方向。統計分析是更加具體的一種離線分析,基於統計模型的數據分析處理。

機器學習(Machine Learning, ML)是一門多領域交叉學科,模擬或實現人類的學習行為,以獲取新的知識或技能,是人工智能的核心,框架有很多,例如Mahout以及SparkML等。

相關推薦

推薦中...