"


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


大數據GIS及應用淺析,GIS的未來都在這裡


圖4 瞬時人口密度反映職住特徵


除此之外,藉助大數據的空間可視化技術,各類規劃成果都能聚在一張地圖上,能很清楚地提取查看,並清晰地知曉多個規劃行為之間的關係。在提供基礎數據同時,還能提供各類有效的業務專題數據,輔助規劃編制。例如,通過展示公交車刷卡線路、站點刷卡情況,結合人口分佈等其他信息,能夠分析公交線路規劃是否合理、哪裡需要增加站點,為城市規劃提供決策支持,如圖4所示。


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


大數據GIS及應用淺析,GIS的未來都在這裡


圖4 瞬時人口密度反映職住特徵


除此之外,藉助大數據的空間可視化技術,各類規劃成果都能聚在一張地圖上,能很清楚地提取查看,並清晰地知曉多個規劃行為之間的關係。在提供基礎數據同時,還能提供各類有效的業務專題數據,輔助規劃編制。例如,通過展示公交車刷卡線路、站點刷卡情況,結合人口分佈等其他信息,能夠分析公交線路規劃是否合理、哪裡需要增加站點,為城市規劃提供決策支持,如圖4所示。


大數據GIS及應用淺析,GIS的未來都在這裡


圖5 公交刷卡數據展示


公安行業

公安行業數據包括基礎地理數據、三維模型數據,以及豐富的公安專題數據,如警車、警員、攝像頭、公安機構、重點區域、布控點等信息(這些多為實時數據)。在公安業務中,經常需要對基於位置的移動目標進行實時監測。在數據接收過程中,還要實現實時位置計算功能。海量動態數據的存檔、計算和可視化等都需要使用大數據GIS才能實現。

大數據GIS在公安行業的應用主要依託雲GIS技術、分佈式存儲技術、流數據處理技術,將基礎地理信息庫與帶有時空信息的公安專題數據庫進行融合,為各個警種的業務開展提供更高效的地理信息服務。例如,使用流數據處理技術能夠實現對實時監控數據的傳輸、地理圍欄構建及軌跡重建,如圖5所示,某市公安局警情案件分析系統展示實時警情密度分佈,可為警力資源的指揮調度提供指導。

使用流數據的管理,還能實現對歷史數據的存儲檢索、軌跡回放等功能,能夠了解到車輛是否按照要求的線路巡查行駛,中途是否出現過什麼問題,並檢查車輛巡查路線設計是否合理,為科學合理分配警務資源提供參考。


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


大數據GIS及應用淺析,GIS的未來都在這裡


圖4 瞬時人口密度反映職住特徵


除此之外,藉助大數據的空間可視化技術,各類規劃成果都能聚在一張地圖上,能很清楚地提取查看,並清晰地知曉多個規劃行為之間的關係。在提供基礎數據同時,還能提供各類有效的業務專題數據,輔助規劃編制。例如,通過展示公交車刷卡線路、站點刷卡情況,結合人口分佈等其他信息,能夠分析公交線路規劃是否合理、哪裡需要增加站點,為城市規劃提供決策支持,如圖4所示。


大數據GIS及應用淺析,GIS的未來都在這裡


圖5 公交刷卡數據展示


公安行業

公安行業數據包括基礎地理數據、三維模型數據,以及豐富的公安專題數據,如警車、警員、攝像頭、公安機構、重點區域、布控點等信息(這些多為實時數據)。在公安業務中,經常需要對基於位置的移動目標進行實時監測。在數據接收過程中,還要實現實時位置計算功能。海量動態數據的存檔、計算和可視化等都需要使用大數據GIS才能實現。

大數據GIS在公安行業的應用主要依託雲GIS技術、分佈式存儲技術、流數據處理技術,將基礎地理信息庫與帶有時空信息的公安專題數據庫進行融合,為各個警種的業務開展提供更高效的地理信息服務。例如,使用流數據處理技術能夠實現對實時監控數據的傳輸、地理圍欄構建及軌跡重建,如圖5所示,某市公安局警情案件分析系統展示實時警情密度分佈,可為警力資源的指揮調度提供指導。

使用流數據的管理,還能實現對歷史數據的存儲檢索、軌跡回放等功能,能夠了解到車輛是否按照要求的線路巡查行駛,中途是否出現過什麼問題,並檢查車輛巡查路線設計是否合理,為科學合理分配警務資源提供參考。


大數據GIS及應用淺析,GIS的未來都在這裡


圖6 警情密度分析


除此之外,利用大數據GIS的空間分析技術,也能為現有的公安業務拓展新的視角。例如,對於套牌車的判斷主要是依靠比對抓拍的車牌和車型是否一致,若套牌的車型也一模一樣,就很難準確識別。採用大數據空間分析的“要素連接”算法,可以設置分析提取參數,例如分析提取在五分鐘之內、距離大於10公里的同一個車牌疑似為套牌車,從時空結合的角度提供更有力的線索。

城市綜合管理

隨著新一代智慧城市的發展,城市中的市民、交通、商業、通信、自然資源等逐漸形成一個普遍聯繫的整體。中國工程院郭仁忠院士認為,“智慧城市基於共同的設施和數據資源,具有大量共性化的操作,需要一個操作系統,而智慧城市的操作系統非GIS莫屬”。大數據GIS在傳統GIS之上,擴展了所管理的數據邊界和使用的技術邊界,為智慧城市的綜合管理帶來了新的契機。

隨著大數據GIS與數字孿生技術的共同發展,數字模型將覆蓋城市的每個角落,為城市綜合管理帶來多樣化的數據支撐。大數據GIS將通過對城市多源數據進行空間與非空間、結構化與非結構化的數據融合,對數據進行一體化管理,使得基於城市數字模型的綜合管理變為可能。

逐漸增多的城市數據量拓寬了城市管理的服務範圍,大數據GIS的高效計算與查詢能力變得尤為需要。例如使用通訊基站分佈數據,能夠對城市空間邊界進行劃定;使用導航地圖、POI (Point of Interest)、大眾點評等數據,能夠進行城市公共空間的定義和識別;使用企業登記數據模擬企業遷徙流向等。這些都能為政府職能、公眾提供更多樣的地理信息服務。

隨著新的城市管理和服務需求的出現,傳統GIS在可視化方面能力已經無法滿足應用需求。大數據GIS的分佈式渲染、流數據處理等可視化技術的基礎上,還能夠實現地上地下、室內室外、動態靜態數據的集成展示,為政府政務、企業管理、市民生活帶來新鮮的體驗。

"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


大數據GIS及應用淺析,GIS的未來都在這裡


圖4 瞬時人口密度反映職住特徵


除此之外,藉助大數據的空間可視化技術,各類規劃成果都能聚在一張地圖上,能很清楚地提取查看,並清晰地知曉多個規劃行為之間的關係。在提供基礎數據同時,還能提供各類有效的業務專題數據,輔助規劃編制。例如,通過展示公交車刷卡線路、站點刷卡情況,結合人口分佈等其他信息,能夠分析公交線路規劃是否合理、哪裡需要增加站點,為城市規劃提供決策支持,如圖4所示。


大數據GIS及應用淺析,GIS的未來都在這裡


圖5 公交刷卡數據展示


公安行業

公安行業數據包括基礎地理數據、三維模型數據,以及豐富的公安專題數據,如警車、警員、攝像頭、公安機構、重點區域、布控點等信息(這些多為實時數據)。在公安業務中,經常需要對基於位置的移動目標進行實時監測。在數據接收過程中,還要實現實時位置計算功能。海量動態數據的存檔、計算和可視化等都需要使用大數據GIS才能實現。

大數據GIS在公安行業的應用主要依託雲GIS技術、分佈式存儲技術、流數據處理技術,將基礎地理信息庫與帶有時空信息的公安專題數據庫進行融合,為各個警種的業務開展提供更高效的地理信息服務。例如,使用流數據處理技術能夠實現對實時監控數據的傳輸、地理圍欄構建及軌跡重建,如圖5所示,某市公安局警情案件分析系統展示實時警情密度分佈,可為警力資源的指揮調度提供指導。

使用流數據的管理,還能實現對歷史數據的存儲檢索、軌跡回放等功能,能夠了解到車輛是否按照要求的線路巡查行駛,中途是否出現過什麼問題,並檢查車輛巡查路線設計是否合理,為科學合理分配警務資源提供參考。


大數據GIS及應用淺析,GIS的未來都在這裡


圖6 警情密度分析


除此之外,利用大數據GIS的空間分析技術,也能為現有的公安業務拓展新的視角。例如,對於套牌車的判斷主要是依靠比對抓拍的車牌和車型是否一致,若套牌的車型也一模一樣,就很難準確識別。採用大數據空間分析的“要素連接”算法,可以設置分析提取參數,例如分析提取在五分鐘之內、距離大於10公里的同一個車牌疑似為套牌車,從時空結合的角度提供更有力的線索。

城市綜合管理

隨著新一代智慧城市的發展,城市中的市民、交通、商業、通信、自然資源等逐漸形成一個普遍聯繫的整體。中國工程院郭仁忠院士認為,“智慧城市基於共同的設施和數據資源,具有大量共性化的操作,需要一個操作系統,而智慧城市的操作系統非GIS莫屬”。大數據GIS在傳統GIS之上,擴展了所管理的數據邊界和使用的技術邊界,為智慧城市的綜合管理帶來了新的契機。

隨著大數據GIS與數字孿生技術的共同發展,數字模型將覆蓋城市的每個角落,為城市綜合管理帶來多樣化的數據支撐。大數據GIS將通過對城市多源數據進行空間與非空間、結構化與非結構化的數據融合,對數據進行一體化管理,使得基於城市數字模型的綜合管理變為可能。

逐漸增多的城市數據量拓寬了城市管理的服務範圍,大數據GIS的高效計算與查詢能力變得尤為需要。例如使用通訊基站分佈數據,能夠對城市空間邊界進行劃定;使用導航地圖、POI (Point of Interest)、大眾點評等數據,能夠進行城市公共空間的定義和識別;使用企業登記數據模擬企業遷徙流向等。這些都能為政府職能、公眾提供更多樣的地理信息服務。

隨著新的城市管理和服務需求的出現,傳統GIS在可視化方面能力已經無法滿足應用需求。大數據GIS的分佈式渲染、流數據處理等可視化技術的基礎上,還能夠實現地上地下、室內室外、動態靜態數據的集成展示,為政府政務、企業管理、市民生活帶來新鮮的體驗。

大數據GIS及應用淺析,GIS的未來都在這裡


圖7 電信基站提取城市空間邊界


"


大數據GIS及應用淺析,GIS的未來都在這裡

大數據GIS是在大數據浪潮下,GIS從傳統邁向大數據時代的一次變革。大數據GIS能為空間大數據的存儲、分析和可視化提供更先進的理論方法和軟件平臺,促進了傳統GIS的產業升級,為地理信息產業發展提供新的渠道和原動力,服務於我國“十三五”期間的大數據產業發展和部署。本文將淺析大數據GIS的產生及其在相關行業中的應用方式。


大數據GIS的產生


大數據

近幾年,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

一般認為,大數據具備體量大、變化快、種類多和價值密度低等特徵。而大數據區別於單純海量數據的根本在於:大數據是隨著互聯網、移動互聯網、物聯網等高新技術的發展,能夠自動化獲取的數據,例如手機信令數據、導航定位數據、電商交易數據、搜索引擎數據、社交媒體數據、公交刷卡數據等等。我們能夠從這些數據中分析挖掘出有價值的信息和規律,從而幫助我們在各個行業的應用中輔助決策,甚至預測未來。

空間大數據

業界常說,日常生活中80%的數據和空間位置有關。而在大數據領域,由於數據主要來自互聯網、移動互聯網、物聯網等自動採集的數據,其帶有空間位置的比例更高。例如:手機信令數據由通訊基站與手機之間的信令鏈接所產生,通過手機與基站的相對關係就能計算出手機的位置;社交媒體數據中,用戶分享的文字、圖片、視頻等,通常標註有從用戶終端獲取的位置信息;公交刷卡數據能夠從車輛定位系統中獲取位置信息;即便是電商交易數據,也能從IP地址獲得其大致的位置信息。

總的來說,空間大數據就是大數據中帶有(或者隱含)空間位置的數據。由於獲取方式的特殊性,空間大數據與經典的海量空間數據有所差別,空間大數據帶有大數據的價值密度低的特徵,在大數據技術發展前,使用常規手段無法處理,更無法有效分析和挖掘這些數據的價值。

隨著大數據技術的發展,開採空間大數據的價值成為可能,對於空間大數據的挖掘,讓我們能從一個新的視角,即空間位置關係和時空變遷的角度,去發掘大數據中的規律和趨勢,從而打開大數據應用的另一扇窗。

大數據GIS

大數據領域已經出現了許多實用的IT技術,例如分佈式文件系統、分佈式數據庫、分佈式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大數據進行處理和挖掘,但多聚焦於通用的非空間數據領域,對空間數據的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大數據對分佈式存儲與計算、流數據處理等的技術要求。

大數據GIS就是把大數據技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大數據基礎框架之內,並打造出完整的大數據GIS技術體系。大數據GIS的核心技術如下圖所示:


大數據GIS及應用淺析,GIS的未來都在這裡


圖1 大數據GIS核心技術


1、分佈式技術

(1)空間數據的分佈式存儲。在原有分佈式存儲系統之中,嵌入分佈式空間索引、空間數據的分片處理和管理等技術,通過空間數據的橫向擴展(Scale-Out),實現單表過億、乃至數十億空間數據的存儲與管理。常用的分佈式存儲系統有HDFS、HBase、Elasticsearch等。

(2)分佈式空間計算。以Spark分佈式計算框架為基礎,把原有地理空間分析算法進行分佈式改造,實現在數小時完成原有GIS無法完成的上億條空間面對象之間的空間分析計算。

(3)分佈式地圖渲染。通過矢量金字塔、分佈式渲染、自動緩存和前端漸進加載等技術,實現超大規模空間數據的“免切片”渲染效果(具體內容請點擊《超圖高性能分佈式地圖渲染技術解密與應用》進行查看)。

2、流數據的實時處理技術

基於Spark Streaming流計算框架的基礎能力,擴展實現流式數據的實時接入、過濾、轉換、計算、可視化與輸出等相關能力。

3、空間大數據可視化技術

不同於傳統GIS中直接把所有地物繪製到地圖上,大數據動輒就是千萬、上億條數據,直接展示如此大量的數據既無必要,也沒有可能。空間大數據的可視化更強調的是,在對數據進行分析計算之後,來表達其空間分佈情況、聚合程度及連接關係等。

總的來看,大數據GIS主要解決了兩個方面的問題:

• 新數據:大數據GIS擴展了GIS所管理空間數據的邊界,除了經典的,如矢量、柵格等基礎空間數據,大數據GIS還能管理實時發生的流數據,以及存檔下來的空間大數據,這也為空間大數據的挖掘和應用提供了有效的工具。

• 新技術:大數據GIS也擴展了傳統GIS的技術邊界,通過與大數據IT技術的融合,極大地提升了GIS對超大規模空間數據的存儲容量、計算性能和渲染能力。

然而,僅僅做到攻克大數據GIS技術還是不夠的,要想真正服務好社會,更重要的是如何能夠通過大數據GIS為各個行業的相關業務提供多元思維、多元決策,為行業迎合新技術的衝擊,為行業發展提供堅實的技術基礎。

大數據GIS的應用


大數據GIS在行業中的應用可被稱為“雙輪驅動”,即數據驅動和業務驅動。

所謂“數據驅動”,指的是大數據應用中,首先要考慮有效的數據來源,並且很多數據除了採集者給自身業務提供支撐外,還能為更多行業提供數據增值服務。最典型的如通訊運營商所獲取的手機信令數據,除了分析基站和服務網點的合理性,還能利用這些數據分析人口的分佈和位置改變,為規劃、人口管理、公共安全等眾多行業提供非常廣闊的應用價值。

“業務驅動”則是從業務角度出發,指的是很多行業的業務需要,在沒有大數據之前也是必須開展的,但由於受數據所限,存在效率不足、顆粒度大、反饋週期長等諸多問題。而採用大數據後,能有效地解決這些問題。例如在商業選址時,以前只能實地調查或發放問卷,應用空間大數據GIS技術,我們能迅速知道流動人口的分佈情況,疊加現有酒店的數據,就很容易發現哪裡的酒店建設過多,哪裡還不足以滿足需求,從而指導我們下一步酒店選址。對於城市規劃、公共安全、交通擁堵等諸多工作也一樣適用。

數據和業務的“雙輪驅動”,推進大數據GIS在行業中的應用,而各行業內部存在的具體問題和解決方式會有所差異,下面以自然資源領域、城市規劃、公安行業、城市綜合管理領域為 例,略作說明。

自然資源領域

2018年4月,原國土資源部、國家海洋局、國家測繪地理信息局等相關部門進行了整合,組建了自然資源部,部門的職責涉及土地、海洋、測繪、不動產登記等諸多方向。

在自然資源領域,不斷累積的數據存量和仍然不斷增加的數據增量,使得數據量從GB、TB向PB級發展,用傳統GIS的方式難以進行有效管理。例如,不動產登記業務是在各區縣開展,但 需要在部委層面整合起來,建成全國不動產數據庫,其單表的空間數據就多達5億條以上;又如,某省級地理國情普查庫由於歷史數據的累計,存有多達410TB的數據,且還在不斷增多。基於單節點模式的傳統關係型數據庫存儲技術難以勝任這一任務。

與此同時,傳統的空間分析運算所花費的時間會隨數據量的增長而增長,有些比較複雜的空間運算還會隨數據量的增長呈指數量級增長,即若數據量增長一倍,處理時間會增加好幾倍。以空間連接為例,十萬個對象的空間連接耗時約0.7分鐘,百萬個對象則需5.6分鐘左右,千萬個對象之間則驟增到97分鐘,對於億級數據量的空間連接,傳統GIS根本就得不出結果,只能按照區域先人工分解數據,再分片計算,最後合併,費時費力,結果的準確性還無法得到保證。

在空間數據發佈和瀏覽時,為提高地圖瀏覽的效率,人們一般採用預先切片的技術路線。全國級別的數據切到18級,往往需要數天乃至數週的時間,無法滿足數據快速上線的要求,而不切片又無法達到實時地圖瀏覽性能要求。

大數據GIS在自然資源領域的應用將很好地解決上述痛點。分佈式存儲技術可以輕鬆管理單表上億乃至數十億的空間對象,並具備幾乎無限的橫向擴展能力;分佈式空間分析大幅度降低了空間計算所花費的時間,使得上億對象之間在1小時內完成全量的疊加分析;採用高性能分佈式地圖渲染技術,只需結合分佈式存儲技術,先把數據導入到分佈式空間數據庫中,就能實現數據的“免切片”發佈與瀏覽。例如四川省測繪局基於分佈式架構的時空大數據分析系統時空大數據基礎支撐軟件實現的千萬量級植被覆蓋圖層快速可視化(圖3)。


大數據GIS及應用淺析,GIS的未來都在這裡


圖2 道路佔用地類疊加分析



大數據GIS及應用淺析,GIS的未來都在這裡


圖3 千萬量級植被覆蓋圖層快速可視化


城市規劃

城市規劃是典型的業務驅動型應用大數據GIS的行業。在沒有大數據GIS之前,城市規劃所依賴的數據資料往往時效性差、粒度粗,很多時候就只能“拍腦袋”。有了大數據GIS的幫助,才能知道人口分佈、職住關係等真實且實時的城市運行面貌,為規劃師制定方案提供全面的視角空間和量化依據。規劃師能夠從人口、就業、崗位、用地、公共服務、交通、通勤和休閒等角度對職住關係進行詮釋,而不單單侷限於“職住平衡”指數。如圖3所示上海城市空間單元畫像速寫展示系統,利用就業地塊與居住地塊之間的關係,可分析城市的通勤關係並制定改善措施。


大數據GIS及應用淺析,GIS的未來都在這裡


圖4 瞬時人口密度反映職住特徵


除此之外,藉助大數據的空間可視化技術,各類規劃成果都能聚在一張地圖上,能很清楚地提取查看,並清晰地知曉多個規劃行為之間的關係。在提供基礎數據同時,還能提供各類有效的業務專題數據,輔助規劃編制。例如,通過展示公交車刷卡線路、站點刷卡情況,結合人口分佈等其他信息,能夠分析公交線路規劃是否合理、哪裡需要增加站點,為城市規劃提供決策支持,如圖4所示。


大數據GIS及應用淺析,GIS的未來都在這裡


圖5 公交刷卡數據展示


公安行業

公安行業數據包括基礎地理數據、三維模型數據,以及豐富的公安專題數據,如警車、警員、攝像頭、公安機構、重點區域、布控點等信息(這些多為實時數據)。在公安業務中,經常需要對基於位置的移動目標進行實時監測。在數據接收過程中,還要實現實時位置計算功能。海量動態數據的存檔、計算和可視化等都需要使用大數據GIS才能實現。

大數據GIS在公安行業的應用主要依託雲GIS技術、分佈式存儲技術、流數據處理技術,將基礎地理信息庫與帶有時空信息的公安專題數據庫進行融合,為各個警種的業務開展提供更高效的地理信息服務。例如,使用流數據處理技術能夠實現對實時監控數據的傳輸、地理圍欄構建及軌跡重建,如圖5所示,某市公安局警情案件分析系統展示實時警情密度分佈,可為警力資源的指揮調度提供指導。

使用流數據的管理,還能實現對歷史數據的存儲檢索、軌跡回放等功能,能夠了解到車輛是否按照要求的線路巡查行駛,中途是否出現過什麼問題,並檢查車輛巡查路線設計是否合理,為科學合理分配警務資源提供參考。


大數據GIS及應用淺析,GIS的未來都在這裡


圖6 警情密度分析


除此之外,利用大數據GIS的空間分析技術,也能為現有的公安業務拓展新的視角。例如,對於套牌車的判斷主要是依靠比對抓拍的車牌和車型是否一致,若套牌的車型也一模一樣,就很難準確識別。採用大數據空間分析的“要素連接”算法,可以設置分析提取參數,例如分析提取在五分鐘之內、距離大於10公里的同一個車牌疑似為套牌車,從時空結合的角度提供更有力的線索。

城市綜合管理

隨著新一代智慧城市的發展,城市中的市民、交通、商業、通信、自然資源等逐漸形成一個普遍聯繫的整體。中國工程院郭仁忠院士認為,“智慧城市基於共同的設施和數據資源,具有大量共性化的操作,需要一個操作系統,而智慧城市的操作系統非GIS莫屬”。大數據GIS在傳統GIS之上,擴展了所管理的數據邊界和使用的技術邊界,為智慧城市的綜合管理帶來了新的契機。

隨著大數據GIS與數字孿生技術的共同發展,數字模型將覆蓋城市的每個角落,為城市綜合管理帶來多樣化的數據支撐。大數據GIS將通過對城市多源數據進行空間與非空間、結構化與非結構化的數據融合,對數據進行一體化管理,使得基於城市數字模型的綜合管理變為可能。

逐漸增多的城市數據量拓寬了城市管理的服務範圍,大數據GIS的高效計算與查詢能力變得尤為需要。例如使用通訊基站分佈數據,能夠對城市空間邊界進行劃定;使用導航地圖、POI (Point of Interest)、大眾點評等數據,能夠進行城市公共空間的定義和識別;使用企業登記數據模擬企業遷徙流向等。這些都能為政府職能、公眾提供更多樣的地理信息服務。

隨著新的城市管理和服務需求的出現,傳統GIS在可視化方面能力已經無法滿足應用需求。大數據GIS的分佈式渲染、流數據處理等可視化技術的基礎上,還能夠實現地上地下、室內室外、動態靜態數據的集成展示,為政府政務、企業管理、市民生活帶來新鮮的體驗。

大數據GIS及應用淺析,GIS的未來都在這裡


圖7 電信基站提取城市空間邊界


大數據GIS及應用淺析,GIS的未來都在這裡


圖8 企業遷徙情況


在行業應用的“雙輪驅動”下,大數據GIS已經成為了連接空間大數據與行業應用的橋樑。除了本文中提到的行業外,還有許多行業,如氣象、水利、環保、軍事等都在將大數據GIS能力與當前的業務平臺或系統進行融合,實現GIS行業大數據平臺的升級和擴展。

未來,隨著硬件配置的進一步提高,以及雲計算、雲原生等技術的普及,大數據GIS技術也會不斷進步。空間大數據的存儲與分析技術將向著處理量更大、效率更高的方向發展,所能承載的數據也更復雜、多變、實時。內置分佈式技術和流數據技術的大數據GIS,將取代傳統GIS,成為GIS的默認標配。

隨著“十三五”規劃中地理大數據的全面部署、“一帶一路”建設中空間大數據分析重大戰略需求,大數據GIS將會在社會經濟的各個領域發揮不可替代的作用,後續應用發展前景無限。

"

相關推薦

推薦中...