数据采集简介
(淺淺介紹一下數據采集的基礎知識)(分享在東軟教育線上學習的學習心得。)如有錯誤,歡迎各位技術大佬指正。
????????大數據采集是指從傳感器和智能設備、企業在線系統、企業離線系統、社交網絡和互聯網平臺等等獲取數據的過程。這些數據包括RFID數據(RFID:無線射頻識別即射頻識別技術(Radio Frequency Identification,RFID),是自動識別技術的一種,通過無線射頻方式進行非接觸雙向數據通信,利用無線射頻方式對記錄媒體(電子標簽或射頻卡)進行讀寫,從而達到識別目標和數據交換的目的)、傳感器數據、用戶行為數據、社交網絡交互數據以及移動互聯網數據等等各種類型的結構化、半結構化以及非結構化的海量數據。
??????? 不但數據源的種類多,數據的類型繁雜,數據量大,并且產生的速度快,傳統的數據采集方法完全無法勝任。所以在這種情況下,大數據采集技術面臨許多技術挑戰,一方面需要保證數據采集的可靠性和高效性,同時還要避免重復數據。
本次主要介紹:
1、大數據的來源
2、數據采集的概念
3、大數據采集目標
4、大數據采集方法和途徑
5、數據存儲方式
?????? 1、大數據采集
???????? 提到大數據采集首先要了解一下傳統的數據體系和大數據體系中的數據的類型有何區別。從數據源方面來看,傳統數據采集的數據比較單一,就是從傳統企業的客戶關系管理系統、企業資源計劃系統以及相關的業務系統當中獲取數據。而大數據采集系統需要從社交網絡、互聯網系統以及各種類型的機器設備上獲取數據。從數據量方面來看,互聯網系統和機器系統產生的數據量,要遠遠大于企業系統的數據量。從數據結構方面來看,傳統數據采集的數據都是結構化的數據,而大數據采集系統需要采集大量的視頻、音頻、照片等等非結構化數據。以及網頁、博客、日志等等半結構化數據。從數據產生速度來看,傳統數據采集的數據幾乎都是由人類的操作實現的。遠遠慢于機器生成數據的效率,因此,傳統數據采集的方法和大數據采集的方法也有很多根本的區別。傳統數據體系中包括業務數據和行業數據。
????????在新的數據體系中,數據的來源主要分為一下五種。
????????大數據的來源主要有:業務數據(消費者數據、客戶關系數據、商戶數據、賬務數據等)、行業數據(流量數據、農業大數據、天氣環境數據、醫療健康、科學研究數據等)、內容數據(應用日志、電子文檔、機器數據、多模態數據等)、線上行為數據(頁面數據、交互數據、表單數據、會話數據、反饋數據等)、線下行為數據(物體運動數據、用戶位置和軌跡數據、運動位置和軌跡數據等)
??????? 數據的來源按照不同的來源系統有以下幾種。
??????? 企業系統(ERP系統、商務銷售系統、計費賬務系統、財務系統等)、機器系統(智能儀表、工業設備傳感器、農業設備、視頻監控系統、科研探測設備等)、互聯網系統(電商系統、服務系統、政府監管系統等)、社交系統(Wechat微信、QQ、微博、短視頻平臺、第三方應用、朋友圈等)。
??????? 2、數據采集的概念
??????? 數據采集又稱喂數據獲取,它是利用一種裝置,從系統外部采集數據,并輸入到系統內部的一個接口。數據采集技術廣泛應用在各個領域。例如攝像頭、麥克風等,都是數據采集工具。被采集數據是已被轉換為電信號的各種物理量。例如溫度、水位、風速、壓力等等。它可以是一個模擬量,也可以是一個數字量。一般是固定的采樣方式,間隔一定時間對同一點的數據重復的進行采集。采集的數據大多是瞬時的值,也可以是某段時間內的一個特征的值。準確的數據測量是數據采集的基礎數據采集的含義很廣,包括對連續物理量的采集,在計算機輔助制圖? 測圖? 設計中,對圖形、圖像數字化過程也可以稱為數據采集。此時被采集的就是幾何數據了。
??????? 在互聯網行業飛快發展的今天,數據采集已經被廣泛地應用于互聯網以及分布式領域,數據采集的領域已經發生了重要的變化。首先,分布式控制應用場合中的智能數據采集系統已經在國外得到了長足的發展。其次,總線兼容型數據采集插件的不斷增多與個人計算機兼容的數據采集系統也在增加。國內外各種數據采集機先后問世,將數據采集帶入了一個全新的時代。
??????? 數據采集的三大要點:1、全面性·數據量足夠具有分析價值、數據面足夠支撐分析需求。2、多維性·數據更重要的是能滿足分析需求。靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。3、高效性·高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。
??????? 3、大數據采集目標
??????? 數據采集的宏觀目標:完成企業所需各類數據源的采集,并建立各種接口,將數據引入企業大數據平臺。從業務系統采集的數據,主要是滿足業務抽象出來的數據需求。典型的例子是電商推廣、線上廣告、APP注冊等生意。不管是各家電商網站的輔助營銷工具還是各大媒體平臺也不管具體的付費方式是哪種,最終都要提供較為通用的瀏覽量、獨立訪客數、轉化率、點擊率等等各類型的數據。給營銷人員、銷售人員、甲方去適用,參考和分析。另一方面為了提出產品改進方向的假設,滿足假設檢驗的數據需求,比如什么形狀的分享按鈕更有利于用戶分享。某個tab頁是否存在的意義。為了驗證假設的需求,就會在數據采集過程當中體現,在常用的APP中我們仔細觀察不難刊出很多的測試案例。數據采集貫穿在企業大數據平臺建設整個過程中,不同階段根據需求,考慮各種因素,制定階段數據采集目標。比如采集的技術,是否能夠滿足實時的要求,能否滿足其他的要求等等。同時要考慮采集的數據范圍,需要多久的歷史數據,需要哪些表那些字段等等。要考慮數據質量,某些來源的數據如果存在數據缺失、重復數據、異常數據等等情況,要如何地進行采集和處理。考慮到采集成本,不同的采集方法會有成本的差異,要綜合測算投入的產出比,選擇對應的技術方案。
??????? 4、大數據采集方法和途徑
????????大數據的采集是指利用多個數據庫或者存儲系統,來接收客戶端的數據。例如,電商會使用傳統的關系型數據庫MySQL和Oracle來存儲每一筆事務的數據。在大數據時代,Redis、MongoDB和HBase等等NoSQL數據庫也常常用于數據的采集。數據采集過程的主要特點和挑戰是并發程度高。因為同時可能會有,成千上萬的用戶來進行訪問和操作。例如,火車票的銷售網絡和淘寶的并發量。在峰值可能達到上百萬。所以在采集端需要部署,大量的數據庫才能夠對它進行支撐。在這些數據庫之間進行負載均衡和分片是需要深入思考和設計的。根據數據源的不同,大數據采集方法也不同。但是為了能夠滿足大數據采集的需要,大數據采集時都使用了大數據的處理模式,即使用了MapReduce分布式并行處理模式。或是基于內存的流式處理模式。針對于四種不同的數據源大數據的采集方法有以下幾類。
大數據采集的方法:(1)數據庫采集:關系型數據庫、NoSQL數據庫
???????????????????????????????? (2)系統日志采集:離線大數據分析系統、在線大數據分析系統。滿足高可用性、高可靠性、高可拓展性。? 系統日志采集工具均使用分布式架構,能夠滿足每秒數百MB的日志數據采集和傳輸需求。
????????????????????????????????? (3)網絡數據采集:通過網絡爬蟲或者網站公開API等方式從網站上獲取數據信息的過程。將非結構化數據、半結構化數據從網頁中提取出來。
????????????????????????????????? (4)感知設備數據采集:通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理。
??????? 5、數據存儲方式
??????? 結構化數據:來自業務系統關系數據庫、大數據平臺Hive、MaxCompute、統一倉庫建模,劃分層次、主題。
??????? 半結構化數據:來自日志,網絡、大數據平臺Hive,MaxCompute,NoSQL數據庫、解析抽取出結構化信息,進入數據倉庫。
??????? 非結構化數據:來自網絡、檢測設備。分布式文件系統HDFS,OSS,MongoDB等。識別抽取出結構化信息,進入數據倉庫。
總結
- 上一篇: c++ 多个线程操作socket要同步吗
- 下一篇: Tabs