日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop项目实战-用户行为分析之应用概述(二)

發(fā)布時(shí)間:2025/5/22 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop项目实战-用户行为分析之应用概述(二) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.概述

  本課程的視頻教程地址:《項(xiàng)目整體概述

  本節(jié)給大家分享的主題如下圖所示:

  下面我開(kāi)始為大家分享第二節(jié)的內(nèi)容——項(xiàng)目整體概述》,下面開(kāi)始今天的分享內(nèi)容。

2.內(nèi)容

  從本節(jié)開(kāi)始,我們將進(jìn)入到Hadoop項(xiàng)目的整體概述一節(jié)學(xué)習(xí),本節(jié)課程為大家介紹的主要知識(shí)點(diǎn)有一下內(nèi)容,如下圖所示:

  下面,我們首先來(lái)看看項(xiàng)目的整體流程,其流程如下圖所示:

  項(xiàng)目流程可以分為4個(gè)模塊,他們分別是數(shù)據(jù)收集,集群存儲(chǔ),分析計(jì)算和結(jié)果處理。

  下面我分別為大家講解這4個(gè)模塊的作用。 我們知道,在做統(tǒng)計(jì)時(shí),數(shù)據(jù)源是前提,有了數(shù)據(jù)源我們才能在此基礎(chǔ)上做相應(yīng)的計(jì)算和分析。 收集數(shù)據(jù)一般都有專門的集群去負(fù)責(zé)收集這方面的工作。

  在完成收集工作后,我們需要將這些文件集中起來(lái),這里存儲(chǔ)采用的是分布式文件系統(tǒng)(HDFS)。我們將收集的數(shù)據(jù) 按一定的規(guī)則分類,并存儲(chǔ)在指定的HDFS文件系統(tǒng)中。從收集到存儲(chǔ),數(shù)據(jù)源的準(zhǔn)備階段就算完成了。接著,我們可以對(duì)數(shù)據(jù)源進(jìn)行相關(guān)指標(biāo)的分析與計(jì)算,在Hadoop 2.x 版本后編程模型有了良好的拓展,除了支持MapReduce,還支持其以外的模型,如:Spark。另外,還有Hive,Pig,Tez 等相關(guān)技術(shù),來(lái)輔助我們完成分析計(jì)算這塊,所以在分析,計(jì)算這塊技術(shù)選擇很多,本課程選用MapReduce和Hive組合來(lái) 完成相關(guān)工作,其它相關(guān)技術(shù)大家可以在課下對(duì)其做相應(yīng)的補(bǔ)充學(xué)習(xí)。

  完成分析計(jì)算后,我們會(huì)得到統(tǒng)計(jì)后的結(jié)果,這些結(jié)果是存放在HDFS文件系統(tǒng)上的,如何去處理這些結(jié)果,讓這些結(jié)果變得 可視化。這就涉及到最后一個(gè)模塊--結(jié)果處理。由于這些結(jié)果是存儲(chǔ)在HDFS文件系統(tǒng)中的,為了及時(shí)響應(yīng)外界請(qǐng)求,我們需要將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫(kù)(如:Mysql) 或非關(guān)系型數(shù)據(jù)庫(kù)(如:HBase)。在導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)時(shí),我們需要借助一個(gè)Hadoop組件--Sqoop,這是一款開(kāi)源的工具, 主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)(如:Mysql)間進(jìn)行數(shù)據(jù)的傳遞,可將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(如:Mysql)中的數(shù)據(jù)導(dǎo)入到 Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)。在HDFS與HBase之間進(jìn)行數(shù)據(jù)傳遞時(shí),我們可以直接使用 HBase提供的導(dǎo)入與導(dǎo)出工具,這些工具包含在HBase的JAR包中。他們使用MapReduce進(jìn)行導(dǎo)入導(dǎo)出操作,可以將數(shù)據(jù)由 HBase導(dǎo)出到HDFS,或者是將HDFS上的數(shù)據(jù)導(dǎo)出到HBase。最后,我們將數(shù)據(jù)庫(kù)中的結(jié)果通過(guò)Thrift這樣的RPC協(xié)議,對(duì)外提供數(shù)據(jù)接口。

  在項(xiàng)目流程中,我講過(guò)數(shù)據(jù)收集模塊,下面為大家詳細(xì)講解這些數(shù)據(jù)源的獲取方式。 如下圖所示:

  數(shù)據(jù)源的產(chǎn)生包含:

  1.Web日志(如Nginx,JBoss,WebLogic等一些Web容器記錄產(chǎn)生的日志信息)

  2.SystemLog(系統(tǒng)日志),這部分日志包含服務(wù)端應(yīng)用記錄的日志。

  3.DB(存于數(shù)據(jù)庫(kù)中的數(shù)據(jù))

  在實(shí)際業(yè)務(wù)中,我們一般采用Flume NG集群來(lái)收集分發(fā)日志,它是一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng), Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理, 并寫到各種數(shù)據(jù)接受方(可定制)的能力,如收集Web日志和SystemLog日志,我們可以分別在Web日志節(jié)點(diǎn)和SystemLog節(jié)點(diǎn)部署Flume的Agent即可,而DB(如:存在于Mysql數(shù)據(jù)庫(kù)中的數(shù)據(jù)),我們可以使用ETL工程抽取清洗后,在由Agent代理發(fā)送到Flume,最后Flume將數(shù)據(jù)存儲(chǔ)到HDFS文件系統(tǒng)上。

  關(guān)于Flume的集群的收集演示過(guò)程,大家可以參考視頻進(jìn)行演示——《項(xiàng)目整體概述

3.結(jié)束語(yǔ)

  這就是本節(jié)的主要內(nèi)容,主要就對(duì)Hadoop項(xiàng)目的整體流程進(jìn)行概述,對(duì)后續(xù)學(xué)習(xí)Hadoop項(xiàng)目實(shí)戰(zhàn)做一個(gè)準(zhǔn)備工作。

  如果本教程能幫助到您,希望您能點(diǎn)擊進(jìn)去觀看一下,謝謝您的支持!

  轉(zhuǎn)載請(qǐng)注明出處,謝謝合作!

  ?本課程的視頻教程地址:《項(xiàng)目整體概述

轉(zhuǎn)載于:https://www.cnblogs.com/smartloli/p/4564252.html

總結(jié)

以上是生活随笔為你收集整理的Hadoop项目实战-用户行为分析之应用概述(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。