知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

機器學習 算法 力學 數學 文章 人工智能遇見磐創 2019-07-14

語義和Data Fabric的新進展如何幫助我們更好地進行機器學習

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

介紹

如果你在網上搜索機器學習,你會找到大約20500萬個結果。確實是這樣,但是要找到適合每個用例的描述或定義並不容易,然而會有一些非常棒的描述或定義。在這裡,我將提出機器學習的另一種定義,重點介紹一種新的範式——Data Fabric[1]

1 什麼是Data Fabric?

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

討論Data Fabric時,我們應該提到幾個詞:圖(graphs)、知識圖譜(knowledge-graph)、本體(ontology)、語義(semantics)、鏈接數據(linked-data)。在你對這些定義有所瞭解後,我們可以說:

Data Fabric是支持企業所有數據的平臺,它作為一個統一的框架來管理、描述、組合和訪問數據。該平臺由企業知識圖譜構成以創建統一的數據環境。

我們把這個定義拆分成幾部分。我們首先需要的是一個知識圖譜。

知識圖譜由數據和信息組成,還包含大量不同數據之間的鏈接。這裡的關鍵是,在這個新模型下,我們不是在尋找可能的答案,而是在尋找確定的答案。我們想要的是事實——這些事實來自哪裡並不那麼重要。這裡的數據可以代表概念、對象、事物、人,以及你頭腦中的任何東西。圖中填充了概念之間的關係和聯繫。

知識圖譜還允許你為圖中的關係創建結構。有了它,就可以建立一個框架來研究數據及其與其他數據的關係。

在這種情況下,我們可以向我們的數據湖(Data Lake)提出這個問題:這裡存在什麼?

數據湖的概念也很重要,因為我們需要一個地方來存儲數據、管理數據並運行我們的任務。但我們需要一個智能數據湖,一個能理解我們擁有什麼以及如何使用它的地方,這是擁有Data Fabric的好處之一。

Data Fabric應該是統一的,這意味著我們應該努力將組織中的所有數據組織在一個地方並真正地管理它。

2 什麼是機器學習?

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

機器學習已經存在很長時間了,有很多關於它的描述、書籍、文章和博客,所以我不會用太多的章節來描述它,而只是把一些觀點說清楚。

  • 機器學習不是魔法
  • 機器學習是數據科學工作流程的一部分
  • 機器學習需要數據的存在,至少現在是這樣。

在這之後,讓我給機器學習一個有點像借用來的和個性化的定義:

機器學習是一種自動的過程,通過使用算法來理解數據中的模式和一些數據表示,這些算法能夠提取那些模式,而無需專門為此編寫程序,從而創建能夠解決特定(或多個)問題的模型。

你可以同意也可以不同意這個定義,現在的文獻中有很多很好的定義,我只是覺得這個很簡單,對我想表達的東西很有用。

3 在Data Fabric中進行機器學習

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

在愛因斯坦的引力理論(廣義相對論)中,他從數學上提出質量可以使時空變形,而這種變形就是我們所理解的引力。我知道如果你不熟悉這個理論,聽起來會很奇怪。我來解釋一下。

在沒有引力的狹義相對論的平行時空中,力學定律呈現出一種特別簡單的形式:只要沒有外力作用於一個物體上,它將沿著一條直線通過時空:沿著一條直線,以一個恆定的速度(牛頓力學第一定律)。

但是當我們有質量和加速度時,我們可以說我們處於重力之下。像Wheeler所說:

Spacetime tells matter how to move; matter tells spacetime how to curve.(時空告訴物質如何運動;物質告訴時空如何彎曲。)

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

在上圖中,“立方體”是時空結構的一種表現,當物體在其中移動時,它會變形,“線”移動的方式會告訴我們,一個靠近的物體會如何靠近那個物體。所以重力像是下面這樣的:

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

所以當我們有質量時,我們可以在時空中做一個“凹痕”,在那之後,當我們接近那個凹痕時,我們看到的是重力。我們必須離物體足夠近才能感覺到它。

這正是我所提到的機器學習在Data Fabric中的作用。我知道聽起來很瘋狂,所以讓我解釋一下。

假設我們創建了一個Data Fabric,對我來說,最好的工具是Anzo。

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

你可以使用Anzo構建所謂的“企業知識圖譜”,當然也創建了你的Data Fabric。

圖的節點和邊靈活地捕獲了每個數據源的高分辨率孿生體——結構化或非結構化。該圖可以幫助用戶快速、交互式地回答任何問題,允許用戶與數據進行對話,從而發現問題的“洞察力”(insights)。

順便說一下,我是這樣描繪一個“洞察力”(insight)的:

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

如果我們有Data Fabric:

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

我所建議的是一種“洞察力”(insight)可以被認為是它的一個凹痕。而發現這種“洞察力”(insight)的自動過程,就是機器學習。

知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

所以現在我們可以說:

機器學習是一種自動發現Data Fabric中隱藏的“洞察力”(insight)的過程,它使用的算法能夠發現這些“洞察力”(insight),而無需專門為此編寫程序,從而創建模型來解決特定(或多個)問題。

使用fabric生成的“洞察力”(insight)本身就是新數據,作為fabric的一部分而變得明確。也就是說“洞察力”(insight)可以擴增圖,可能會產生進一步的“洞察力”(insight)。

在Data Fabric中,我們遇到了一個問題,試圖在數據中找到那些隱藏的“洞察力”(insight),使用機器學習我們可以發現它們。這在現實生活中會是什麼樣子?

Cambridge Semantics研究人員也用Anzo給出了答案,使用Anzo進行機器學習的解決方案用一個現代化的數據平臺取代了這種單調乏味、容易出錯的工作,該數據平臺旨在快速集成、協調和將來自所有相關數據源的數據轉換為優化的機器學習特性數據集。

Data Fabric提供了高級數據轉換功能,這是快速有效的特性工程所必需的,可以幫助將關鍵的業務信號從無關的噪聲中分離出來。

記住,數據是第一位的,這個新的範示使用內置的圖形數據庫和語義數據層集成和協調所有相關的數據源——結構化和非結構化數據都是如此。Data Fabric傳遞數據的業務上下文和含義,使業務用戶更容易理解和正確使用數據。

重現性(reproducibility)對於數據科學和機器學習非常重要,因此我們需要通過管理數據集目錄以及數據集成等方面,像數據質量處理,來輕鬆地重用和協調結構化和非結構化數據,這就是Data Fabric所提供的。它還保留了包含機器學習數據集的數據的端到端的起源,因此在生產中使用模型時很容易找出所需的數據轉換。

在接下來的文章中,我將給出一個關於如何在這個新框架中進行機器學習的具體例子。

4 總結

機器學習並不新鮮,但它有一個新的範式,也許這就是這個領域的未來(這麼說可能有點樂觀)。在Data Fabric內部,提出了本體、語義、層次、知識圖譜等新概念;但所有這些都可以改善我們思考和進行機器學習的方式。

在這個範式中,我們通過使用算法來發現Data Fabric中隱藏的“洞察力”(insight),這些算法能夠發現這些“洞察力”(insight),而無需專門為此編寫程序,從而創建模型來解決特定(或多個)問題。

下一篇我們將為大家介紹Data Fabric上的深度學習。

相關推薦

推薦中...