数据采集的技术方法
1.系統日志采集方法
很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。這些系統采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求,例如,Scribe是Facebook開源的日志收集系統,能夠從各種日志源上收集日志,存儲到一個中央存儲系統(可以是NFS、分布式文件系統等)上,以便于進行集中統計分析處理,它為日志的“分布式收集,統一處理”提供了一個可擴展的、高容錯的方案。
2.對非結構化數據的采集
非結構化數據的采集就是針對所有非結構化的數據的采集,包括企業內部數據的采集和網絡數據的采集等。企業內部數據的采集是針對企業內部各種文檔、視頻、音頻、郵件、圖片等數據格式之間互不兼容的數據采集。
網絡數據采集是指針對通過爬蟲或網站公開api等方式從網上獲取互聯網中相關網頁內容的過程,并從中抽取出用戶所需要的屬性內容。互聯網網頁數據處理,就是對抽取出來的網頁數據進行內容和格式上的處理、轉換和加工,使之能夠適應用戶的需求,并將之存儲下來,供以后使用。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。除了網絡中包含的內容之外,對于網絡流量的采集可以使用DPI(DeepPacketInspection,深度包檢測)或DFI(Deep/Dynamic Flow Inspection,深度/動態流檢測)等帶寬管理技術進行處理。 網絡爬蟲是一種按照一定的規則自動地抓取萬維網信息的程序或者腳本,它是一個自動提取網頁的程序,為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。 目前網絡數據采集的關鍵技術為鏈接過濾,其實質是判斷一個鏈接(當前鏈接)是不是在一個鏈接集合(已經抓取過的鏈接)里。在對網頁大數據的采集中,可以采用布隆過濾器(Bloom Filter)來實現對鏈接的過濾。
3.其他數據采集方法
對于企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。 盡管大數據技術層面的應用可以無限廣闊,但由于受到數據采集的限制,能夠用于商業應用、服務于人們的數據要遠遠小于理論上大數據能夠采集和處理的數據。因此,解決大數據的隱私問題是數據采集技術的重要目標之一。 現階段的醫療機構數據更多來源于內部,外部的數據沒有得到很好的應用。對于外部數據,醫療機構可以考慮借助如百度阿里、聘訊等第三方數據平臺解決數據采集難題。
總結
- 上一篇: stunnel使用详解
- 下一篇: 简易有效Api接口防攻击策略