大数据项目及实现
1,離線數據處理:項目內容為通過對網站訪問日志的采集和清洗,結合數據庫中的結構化用戶數據,統計并展示網站的PV、UV情況,以對網站的運行情況進行監控。通過此項目,回顧并串聯前面講述的離線數據處理相關技術,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB級數據離線處理的一般過程和架構。
2,流式數據處理:項目內容為通過對數據庫交易數據修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運行的風險。 通過此項目,回顧并串聯前面講述的實時數據處理相關技術,如:kafka、Spark、Streaning和HBase等,了解和掌握實時數據處理的一般過程和架構。
3,推薦系統:項目內容,基于公開數據庫的商品推薦,某大型互金公司產品推薦系統剖析, 通過對公司實際推薦項目的剖析和根據真實數據搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法。
【大數據開發學習資料領取方式】:加入大數據技術學習交流群458345782,點擊加入群聊,私信管理員即可免費領取
?
時間上下文itemCF算法: 最常用的是基于物品的個性化推薦系統
物品相似度
在線推薦 : 用戶近期行為更關鍵
時間上下文相關的userCF算法
用戶興趣相似度
相似興趣用戶最近行為
地點上下文
4,搜索系統:項目內容,通過網站爬蟲爬取網站數據,然后基于KlastlcSeard和Klbana搭建一個完整的搜索系統。
5,系統運行情況儀表盤:?通過對網站訪問日志的采集和清洗,結合數據庫中的結構化用戶數據,統計并展示網站的PV,UV情況,以對網站的運行情況進行監控。通過此項目,回顧并串聯前面講述的離線數據處理相關技術,如Flume,Sqoop,Hive,Spark等,掌握PB級數據離線處理的一般過程和架構。
6,?實時交易監控系統?: 過對數據庫交易數據修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運行的風險。通過此項目,回顧并串聯前面講述的實時數據處理相關技術,如Kafka,Spark Streaming和HBase等,掌握實時數據處理的一般過程和架構。
7,推薦系統理論與實戰:?講解推薦系統的相關背景,常用算法及通用架構;基于公開數據集從零構建一個電影推薦系統。通過對公司實際推薦項目的剖析和根據真實數據搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法
8,數據倉庫搭建理論與實戰:?講解數據倉庫搭建的方法論,常用建模理論;以互金公司數據倉庫搭建場景作為切入,實例演示數據倉庫搭建過程及技術架構。
9,分布式業務監控系統:?講解業務監控系統需求背景,基于大數據的技術方案;通過實例代碼搭建完整的業務監控系統
10,基于ES的日志系統?: 基于Flume,ElasticSearch等技術搭建系統日志收集與查詢系統。
11,信貸需求預測系統:?以京東信貸需求預測競賽為背景,實例講解數據挖掘項目中如何設計特征,模型基礎,建模以及調參等。
12,用戶畫像系統?: 講解用戶畫像系統的需求背景,基于大數據技術的解決方案;通過實例代碼演示用戶畫像系統的搭建
?
總結
- 上一篇: 【原创】oracle的tpc-c测试及方
- 下一篇: bootice添加黑苹果引导_懒人黑苹果