空间数据挖掘与空间大数据的探索与思考(五)
生活随笔
收集整理的這篇文章主要介紹了
空间数据挖掘与空间大数据的探索与思考(五)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
如果按照互聯網所謂的大數據特點來說,GIS領域大部分的傳統數據都不算是實際意義上的大數據。
我國從各個方面來說,都是一個大國,所以有各種大國的幸福和苦惱,特別是對于我們做GIS的人來說。
比如地理國情普查,比如二調,比如農地確權,960萬平方公里,十幾億人,生成的數據量都是極度龐大的,比如農地確權:
農地確權是以農戶為單位發證,以地塊為單位制作數據的,所以全國上來,預計超過15億個地塊(三至四億農戶,戶均3-5個地塊)。
這種數據量,比之互聯網,也不遑多讓,而且論數據的復雜程度,也不遑多讓:
但是,是不是互聯網意義上的大數據呢?
我的答案為:不是。
因為農地確權數據缺少了互聯網大數據的一些特性,比如快速的生成、傳播、變化,比如低密度,比如易變性和變異性,比如非精確性的描述和分析(非精確性不代表不準確,而是代表了置信度區間),這樣就導致了這些數據可以認為是廣義上的大數據,但是并非互聯網意義上的大數據。
而要談真正互聯網意義上的所謂空間大數據有哪些呢?我認為空間大數據與互聯網真正接壤的有兩大類。
第一類是遙感影像產品。
第二類是LBS信息,LBS就是基于位置的服務,它由三個維度組成:
? 空間數據,沒有空間數據就不能稱為基于位置的數據
? 時間數據,如果沒有時間數據,那么這個數據就是個靜態的數據,失去了變化,也就成了死的數據。
? 唯一ID,當然還可以附加其他信息。
我們來看一下哪些是LBS信息。最狹義的LBS信息就是來源于類似GPS記錄信息,比如各種行車記錄儀、全站儀和智能手機等,這個數據會使用絕對的經緯度信息來標識位置;
第二類是公交車的刷卡記錄,這份數據會告訴你在什么時間、坐的哪一趟車、從哪一站上車和哪一站下車,它沒有明確定位經緯度坐標,但是可以明確站臺的信息,而站臺也是一種個位置,是通過站臺掛接唯一ID給出的
第三類LBS信息是電商物流日志信息,這一類信息沒有很詳細的位置描述,他的日志里面所記錄的位置,區域可能非常之大,但是不妨礙你對它的解讀和使用;
接下來一類LBS信息是微博、微信、足跡相片,這種社交數據。根據最新的統計,除去發布帶有確切位置的社交信息以外,還有最少三分之一以上數據能夠通過算法識別出所在的地理位置。
比如我現在在武大拍張武大校門口的相片發一條狀態,就算沒有加上定位,那么通過那張相片就能識別我在什么位置。當然這種識別可能是很不精確的,也恰恰是這種不精確的識別,才更有價值。
如果說農地確權數據的精確性是通過各種技術手段來保證的(比如測繪工程學,數據質量檢查,邏輯拓撲等),這種非精確性的獲取數據及其位置,才是未來計算機智能化發展的一個趨勢。
當然,還包括很多其他類的信息,比如氣象站點、智能電表、監控攝像頭和設施傳感器等等。任何一類具有時間、空間和標識的信息,都是LBS信息。
這里多說幾句關于智能電表情況,這個概念是從德國開始的,在物理學上任何一種電器在接入電網時,會在電網上會發送一個信號,這個信號稱之為電流浪涌。就是斷路瞬間接入開路的時候,電流會發出一個波動,因為每一種電器接入電網的時候,功率和工作模式是不一樣的,比如微波爐和手機充電器在接入電網的時候,發送的信號波動肯定也是不一樣,所以這個電流浪涌稱為電器的指紋。通過這個電流浪涌的波動就知道家里面在什么時候用了什么電器。如果突然發現電器插入電流發送的信號和平常不太一樣,就會知道電器可能需要換了,這樣還可以把這個信息賣給電商,然后電商會給你寄微波爐的優惠券,說你家的微波爐快要換了等等的。
我們再來看一下空間大數據可能會有一些什么樣的作用。這里有一個很簡單的分析案例,圖中每一個蜂窩網格都代表一個手機信號基站提供的服務區,服務區內綠色的點是手機,由此可以知道某一區域為哪些手機提供信號服務。
當某個服務區內發生了某種案件,而當收集到足夠多的數據,把她們做一個簡單的交集就會發現,某一區域內發生某種案件的時候,某一個(或者多個)手機信號會重復再重復出現,那么持有這個手機的人可能就是嫌疑人。
? ??
當然,實際上案件的偵破并沒有這么簡單,可能你計算出來的結果只是一個巧合,或者有幾百幾千個信號源都符合這種規律怎么辦?所以數據分析實際上在這里給出的是一個非精確性的可能。
這些分析手段和技術,并非是直接解決這類問題,而主要是提供另外一種思路,比如利用這種分析,能夠從若干嫌疑人中,篩選出符合條件的,進一步縮小偵查范圍。也有可能是抓獲了犯罪嫌疑人后,利用這種技術,來進行驗證和舉證,減少冤假錯案的可能。而且目前在國際上,此類犯罪分析手段,已經可以作為證據鏈的一部分,出現在法庭上,作為呈堂證供了。
當然,也有人說,能不能用這些手段,去預測某些事情的發生呢?答案當然是有可能,是僅僅是可能而已,真正數據分析對于預測給出來的是一個非常模糊的區間,比如下面這個例子:
我如果能夠完美的收集到每一滴水的位置,那么能否(精準的)預測下一滴水會落在什么地方呢?答案當然是否定的,因為不可控的因素太多了,所以最多能夠給出一個可能出現的區間答案。
但是,如果我完美的收集到了每一滴水的位置,那么一定能夠做到的,就是通過這些位置,反推出噴頭的位置。
我國從各個方面來說,都是一個大國,所以有各種大國的幸福和苦惱,特別是對于我們做GIS的人來說。
比如地理國情普查,比如二調,比如農地確權,960萬平方公里,十幾億人,生成的數據量都是極度龐大的,比如農地確權:
農地確權是以農戶為單位發證,以地塊為單位制作數據的,所以全國上來,預計超過15億個地塊(三至四億農戶,戶均3-5個地塊)。
這種數據量,比之互聯網,也不遑多讓,而且論數據的復雜程度,也不遑多讓:
但是,是不是互聯網意義上的大數據呢?
我的答案為:不是。
因為農地確權數據缺少了互聯網大數據的一些特性,比如快速的生成、傳播、變化,比如低密度,比如易變性和變異性,比如非精確性的描述和分析(非精確性不代表不準確,而是代表了置信度區間),這樣就導致了這些數據可以認為是廣義上的大數據,但是并非互聯網意義上的大數據。
而要談真正互聯網意義上的所謂空間大數據有哪些呢?我認為空間大數據與互聯網真正接壤的有兩大類。
第一類是遙感影像產品。
第二類是LBS信息,LBS就是基于位置的服務,它由三個維度組成:
? 空間數據,沒有空間數據就不能稱為基于位置的數據
? 時間數據,如果沒有時間數據,那么這個數據就是個靜態的數據,失去了變化,也就成了死的數據。
? 唯一ID,當然還可以附加其他信息。
我們來看一下哪些是LBS信息。最狹義的LBS信息就是來源于類似GPS記錄信息,比如各種行車記錄儀、全站儀和智能手機等,這個數據會使用絕對的經緯度信息來標識位置;
第二類是公交車的刷卡記錄,這份數據會告訴你在什么時間、坐的哪一趟車、從哪一站上車和哪一站下車,它沒有明確定位經緯度坐標,但是可以明確站臺的信息,而站臺也是一種個位置,是通過站臺掛接唯一ID給出的
第三類LBS信息是電商物流日志信息,這一類信息沒有很詳細的位置描述,他的日志里面所記錄的位置,區域可能非常之大,但是不妨礙你對它的解讀和使用;
接下來一類LBS信息是微博、微信、足跡相片,這種社交數據。根據最新的統計,除去發布帶有確切位置的社交信息以外,還有最少三分之一以上數據能夠通過算法識別出所在的地理位置。
比如我現在在武大拍張武大校門口的相片發一條狀態,就算沒有加上定位,那么通過那張相片就能識別我在什么位置。當然這種識別可能是很不精確的,也恰恰是這種不精確的識別,才更有價值。
如果說農地確權數據的精確性是通過各種技術手段來保證的(比如測繪工程學,數據質量檢查,邏輯拓撲等),這種非精確性的獲取數據及其位置,才是未來計算機智能化發展的一個趨勢。
當然,還包括很多其他類的信息,比如氣象站點、智能電表、監控攝像頭和設施傳感器等等。任何一類具有時間、空間和標識的信息,都是LBS信息。
這里多說幾句關于智能電表情況,這個概念是從德國開始的,在物理學上任何一種電器在接入電網時,會在電網上會發送一個信號,這個信號稱之為電流浪涌。就是斷路瞬間接入開路的時候,電流會發出一個波動,因為每一種電器接入電網的時候,功率和工作模式是不一樣的,比如微波爐和手機充電器在接入電網的時候,發送的信號波動肯定也是不一樣,所以這個電流浪涌稱為電器的指紋。通過這個電流浪涌的波動就知道家里面在什么時候用了什么電器。如果突然發現電器插入電流發送的信號和平常不太一樣,就會知道電器可能需要換了,這樣還可以把這個信息賣給電商,然后電商會給你寄微波爐的優惠券,說你家的微波爐快要換了等等的。
我們再來看一下空間大數據可能會有一些什么樣的作用。這里有一個很簡單的分析案例,圖中每一個蜂窩網格都代表一個手機信號基站提供的服務區,服務區內綠色的點是手機,由此可以知道某一區域為哪些手機提供信號服務。
當某個服務區內發生了某種案件,而當收集到足夠多的數據,把她們做一個簡單的交集就會發現,某一區域內發生某種案件的時候,某一個(或者多個)手機信號會重復再重復出現,那么持有這個手機的人可能就是嫌疑人。
? ??
當然,實際上案件的偵破并沒有這么簡單,可能你計算出來的結果只是一個巧合,或者有幾百幾千個信號源都符合這種規律怎么辦?所以數據分析實際上在這里給出的是一個非精確性的可能。
這些分析手段和技術,并非是直接解決這類問題,而主要是提供另外一種思路,比如利用這種分析,能夠從若干嫌疑人中,篩選出符合條件的,進一步縮小偵查范圍。也有可能是抓獲了犯罪嫌疑人后,利用這種技術,來進行驗證和舉證,減少冤假錯案的可能。而且目前在國際上,此類犯罪分析手段,已經可以作為證據鏈的一部分,出現在法庭上,作為呈堂證供了。
當然,也有人說,能不能用這些手段,去預測某些事情的發生呢?答案當然是有可能,是僅僅是可能而已,真正數據分析對于預測給出來的是一個非常模糊的區間,比如下面這個例子:
我如果能夠完美的收集到每一滴水的位置,那么能否(精準的)預測下一滴水會落在什么地方呢?答案當然是否定的,因為不可控的因素太多了,所以最多能夠給出一個可能出現的區間答案。
但是,如果我完美的收集到了每一滴水的位置,那么一定能夠做到的,就是通過這些位置,反推出噴頭的位置。
所以,很多小說里面,對于智者的解釋就是:足夠多的情報與信息,加上合理以及精確的推理計算,就能做出近似乎預言一般的判斷。
總結
以上是生活随笔為你收集整理的空间数据挖掘与空间大数据的探索与思考(五)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XiaoHu日志 5/29~5/30
- 下一篇: 广电总局重拳出击全面清理PPLive、P