物聯網關鍵技術之數據庫與物聯網,物聯網搜索引擎

物聯網 網絡爬蟲 IBM 科技 互聯生活圈 互聯生活圈 2017-09-30

物聯網的發展使信息的收集變得更加全面和迅速,於是就需要更有效的手段對信息進行儲存和組織,並提供便捷的查詢。這就用到了已經有著半個世紀歷史的數據庫技術。在上世紀60年代,誕生了以IBM的SABRE為代表的一些成功的早起數據庫系統。這些系統在今天看來雖說很落後,但是在當時的時代背景下仍然是十分先進且有實際作用的。由於這些數據庫如果要訪問想要的內容,需要遍歷整個數據庫,這就是在其數據庫最大的缺陷。而這類早期數據庫被統稱為“導航式數據庫”。

物聯網關鍵技術之數據庫與物聯網,物聯網搜索引擎

數據庫與物聯網

無線傳感網是物聯網的一個重要組成部分,它的一個重要特點是以數據為中心。無線傳感網的數據具有以下的特點:

1、海量性

假設有一個擁有100個傳感器的傳感網,而每個傳感節點每分鐘只傳回1Kb的數據,那麼每天的數據量就達到1.4Gb。如果是一些大型的敏感的傳感網,每天的數據量可達1TB以上。至於未來物物互聯的物聯網時代,產生的數據就是十分龐大的數量。因此物聯網數據具有海量性。

2、多態性

物聯網的應用包羅萬象,產生的數據自然也是多種多樣。有溫度、溼度等環境數據;有視頻、音頻等多媒體數據;還有與用戶交換信息的結構化數據等等。數據的多態性必然增加數據的複雜性,不同網絡產生的數據格式可能不同,就算是相同類型的數據也會有單位和精度的差別,一個測量量在不同的時間也在變化。因此物聯網數據具有多態性。

物聯網關鍵技術之數據庫與物聯網,物聯網搜索引擎

3、關聯性及語義性

物聯網中的數據都不會是相互獨立的。描述同一個實體的數據在時間上具有關聯性;描述不同實體的數據在空間上會有關聯性;描述實體的不同維度之間也具有關聯性。而不同的關聯性組合會產生豐富的語義,可以通過數據在時間或空間或維度上的關聯性推斷出實體的變化。

物聯網搜索引擎

在物聯網時代,大量的設備互聯互通,海量的信息生成傳輸,這些都為傳統的Web搜索引擎提出了挑戰。首先網絡接入設備的多樣化造成了信息生成方式的多樣化。如何高效的組織和管理信息是物聯網搜索引擎的重中之重。另一方面,用戶的查詢模式也發生了轉變,對搜索引擎的智能有了更高的期待。

從用戶的角度來看,人們不再滿足於坐在辦公室裡通過計算機使用搜索引擎。無論在哪裡都能隨時隨地進行查詢。搜索引擎應該利物聯網優勢,集合多模態信息進行查詢。例如用戶查詢一個地理信息是,搜索引擎不但要查詢結果和關鍵詞的匹配程度,還應該能給出與關鍵詞相關的一些周邊信息。利用物聯網技術可以使搜索引擎的查詢結果更精確,更智能,更定製化,滿足不同用戶的需求,提供更好的用戶體驗。

物聯網關鍵技術之數據庫與物聯網,物聯網搜索引擎

索引技術

Web爬蟲取回的頁面信息,需要放入索引數據庫裡。索引建立的好壞對於搜索引擎有很大的影響,優秀的索引能夠顯著的提高搜索引擎系統運行的效率及檢索結果的品質。文本分析技術是建立數據索引信息的支撐技術,它包含:關鍵索引項提出、自動摘要生成、自動分類器、文本聚類等,文本分析的對象包括詞彙、HTTP文本標記和URL等。

相關推薦

推薦中...