當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据知识点

發布時間：2023/12/20 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据知识点小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據的定義：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
從狹義上講，大數據主要是指大數據技術及其在各個領域中的應用。數據規模非常大，大到無法在一定時間內用一般性的常規軟件工具對其內容進行抓取、管理和處理的數據集合；大數據對海量數據的獲取、存儲、管理、計算分析、挖掘與應用的全新技術體系。

以IDC為代表的業界則認為大數據具備4V特點。
大家公認的是大數據具有四個基本特征：
數據規模大，數據種類多，處理速度快以及數據價值密度低，即4V。

數據獲取
網絡爬蟲
網絡爬蟲（又稱為網絡蜘蛛、網絡機器人，在FOAF社區中更經常稱為網頁追逐著）是按照一定的規則自動抓取萬維網信息的程序或腳本。
網絡爬蟲是一個功能很強的自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁。
整個搜索引擎系統主要包四個模塊，分別為信息搜索模塊、信息索引模塊、信息檢索模塊和用戶接口部分，而網絡爬蟲便是信息搜索模塊的核心。

系統架構
在網絡爬蟲的系統框架中，主過程由控制器、解析器、資源庫三部分組成。
控制器的主要工作是負責給多線程的各個爬蟲線程分配工作任務；
解析器的主要工作是下載網頁，進行網頁的處理，JavaScript腳本標簽、CSS代碼內容、空格字符、HTML標簽等內容處理掉；
資源庫用來存放下載到到網頁資源，如Oracle數據庫。
抓取對象
靜態網頁
動態網頁
特殊內容
文件對象

抓取策略
深度優先策略
深度優先策略是在開發爬蟲早期使用較多的方法，它的目的是要達到被搜索結構的葉節點（即那些不包括任何超鏈接HTML文件）。
深度優先搜索沿著HTML文件上的超鏈接走到不能再深入為止，然后返回到某一個HTML文件，再繼續選擇該HTML文件中的其他超鏈接。
當不再其他超鏈接可選擇時，說明搜索已經結束。
這種策略的優點是能遍歷一個Web站點或深層嵌套的文檔集合。缺點是因為Web結構相當深，有可能造成一旦進去再也出不來的情況發生，
廣度優先策略
因為這個方法可以讓爬蟲網絡爬蟲并行處理，提高其抓取速度，廣度優先搜索策略通常是實現爬蟲的最佳策略。

RSS簡易信息聚合
RSS能實現以下功能：
訂閱BLOG
訂閱新聞
訂閱雜志文章
訂閱最新搜索結果
快速、高效地瀏覽

第三方
第三方指兩個相互聯系的主體之處的某個客體。

數據挖掘

概述

技術：數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的，但又是潛在有用的信息和知識的過程。這一定義包括幾層含義：數據源必須是真實的、海量的、含噪聲的；發現的用戶感興趣的知識；發現的知識要可接受、可理解、可運用；并不要求發現放之四海皆準的知識，僅支持特定的發現問題。

數據挖掘其實是一類深層次的數據分析方法。

數據挖掘可以描述為：按企業既定業務目標，對大量的企業數據進行探索和分析，揭示隱藏的、未知的或驗證已知的規律性，并進一步將其模型化的有效方法。

數據挖掘是交叉學科，涉及數據庫系統、數據倉庫、統計學、機器學習、可視化、信息檢索和高性能計算等諸多領域。

數據挖掘還與神經網絡、模式識別、空間數據分析、圖像處理、信號處理、概率論、圖論和歸納邏輯的領域關系密切。

數據挖掘與傳統數據分析方法主要有以下兩點區別：首先，數據挖掘的數據源與以前相比有了顯著的改變，包括數據是海量的，數據有噪聲，數據可以是非結構化的。其次，傳統的數據分析方法一般都是先給出一個假設，然后通過數據驗證，在一定意義上是假設驅動的；與之相反，數據挖掘在一定意義上是發現驅動的，模式都是通過大量的搜索工作從數據中自動提取出來的。即數據挖掘是要現那些不能靠直接發現的信息或知識，甚至是違背直覺的信息或知識，挖掘出的信息越是出乎意料，就可能越有價值。

現狀與未來

數據挖掘本質上是一種深層次的數據分析方法。數據挖掘的研究重點逐漸從發現方法轉向系統運用，注重多種發現策略和技術的集成以及多學科之間的相互滲透。

數據分析

概述

使用數據，讓數據顯示出它本身的威力，總結下來有以下幾個方面：看歷史數據，發現規律；從歷史數據和現有數據中發現端倪，找出問題所在；數據預測；學會拆解數據。要會對數據進行拆分，知道每個數據都是來自哪些方面，增高或降低的趨勢是什么。

數據分析流程
明確分析目標與框架? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 明確分析目的與進行數據分析的先決條件，為數據分析提供了方向。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 一個分析項目，數據對象是什么？商業目的是什么？要解決什么業務問題？對這些問題都要了然于心。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 要基于對商業的理解，整理分析框架分析思路，例如減少新客戶的流失、優化活動效果、提高客戶響應率等。不同的項目對數據的要求以及使用分析手段都是不一樣的。
數據收集
數據收集是通過數據庫和其他媒介按照確定的數據分析和框架內容，有目的地收集、整合相關數據的過程，它是數據分析的基礎。
數據處理
? ? ? ?數據處理是指對收集到的數據進行加工、處理，以便開展數據分析，它是數據分析前必不可少的階段。這個過程是數據分析整個過程中最占據時間的，也在一定程度上取決于數據倉庫的搭建和數據質量的保障。
? ? ? ?數據處理包括主要包括數據清洗、數據轉化、提取、計算等處理方法。
數據分析? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析，從中發現因果關系，內部聯系和業務規律，為商業的目的提供決策參考。
數據展現
? ? ? ?一般情況下，數據分析的結果都是通過圖表、表格、文字的方式來呈現。
借助數據展現手段，能更直接地表述想要呈現的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累托圖等
撰寫報告? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 最后一個階段就是撰寫數據分析報告，這是對整個數據分析成果的一個呈現。通過分析報告，把數據分析的目的、過程、結果及方案完整的呈現出來。

數據分析方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 常用數據分析方法有以下幾種：聚類分析、因子分析、相關分析、對應分析、回歸分析、分差分析。

數據分常用的圖表表示方法有以下幾種：柏拉圖，直方圖，散點圖，魚骨圖，FMEA。

數據分析工具：常用的數據分析工具有MATLAB、SPSS、SAS、Excel、R等。

Hadoop? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?簡介

Had oop是由Apache基金會開發的分布式系統基礎架構。Hadoop實現了一個分布式文件系統（HDFS）。HDFS有高容錯性，并且設計用來部署在低廉的硬件上；而且它提供高吞吐量來訪問應用程序的數據，適合那些有超大數據集的應用程序而去。HDFS放寬了POSIX的要求，可以以流的形式訪問文件系統中的數據。Hadoop框架最核心的設計是HDFS和MaReduce 。HDFS為海量的數據提供了存儲功能，而MapReduce為海量的數據提供了計算功能。Hadoop目前主要應用于互聯網企業，用于數據分析、機器學習、數據挖掘等。

Hadoop使用主/從架構。在主節點的服務器中會執行兩套程序：一個是負責安排MapReduce運算層任務的JobTracker，另一個是負責管理HDFS數據層的NameNode程序。

分布式離線計算框架MapReduce

概念

Map和Reduce是編程語言中的概念，都是處理數據集合函數。兩者的不同主要有兩點：第一，Map在處理數據序列的過程中處理當前的數據信息，不需要與之前處理的狀態信息交互，而Redure處理過程中卻依賴之前處理的結果，同時生成的結果也被后續的處理使用。第二，Map只是遍歷數據，數據處理無關先后；Reduce是在遍歷的過程中生成聚合信息。

總結

以上是生活随笔為你收集整理的大数据知识点的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：京瓷2211打印机清零_打印机墨粉盒清零
下一篇： Sitemesh前段框架基础