用户画像标签系统体系解释
文章目錄
- 一 標簽系統(tǒng)體系架構
- 二 標簽模型開發(fā)流程
- 三 標簽模型計算邏輯
一 標簽系統(tǒng)體系架構
1)、標簽數(shù)據(jù)
標簽管理平臺中,每個標簽開發(fā)時,首先需要在管理平臺上注冊(新建標簽:4級標簽和5級標簽)
業(yè)務標簽和屬性標簽
業(yè)務標簽對應標簽模型,每個標簽模型就是Spark Application,運行程序可以給用戶打上標簽:TagName
模型表中存儲數(shù)據(jù):spark application運行時參數(shù)設置核心數(shù)據(jù):
tagName -> tagRule:標簽規(guī)則
2)、業(yè)務數(shù)據(jù)
依據(jù)每個業(yè)務標簽(4級標簽)的標簽規(guī)則rule,獲取業(yè)務數(shù)據(jù)
inType 判斷業(yè)務數(shù)據(jù)的數(shù)據(jù)源,然后解析參數(shù)為Meta,加載業(yè)務數(shù)據(jù)(SparkSQL)
此處:整個項目業(yè)務數(shù)據(jù)主要存儲在HBase表中
3)、構建標簽
使用業(yè)務數(shù)據(jù)和標簽數(shù)據(jù)(屬性標簽對應tagName和rule)計算標簽,得到modelDF,將其保存到HBase表中。
畫像標簽表:tbl_profile
存儲標簽數(shù)據(jù)時,也將標簽數(shù)據(jù)存儲同步存儲到Elasticsearch索引中,方便使用標簽進行查詢用戶
基于Elasticsearch為HBase表構建二級索引
二 標簽模型開發(fā)流程
展示每個標簽模型在實際開發(fā)時主要流程:
1)、標簽管理平臺新建標簽
123級標簽
34級標簽
設置相關屬性,包含標簽的屬性字段的值和對應模型字段的值
標簽模型對應Spark Application名稱,及標簽模型分類,尤其關鍵為標簽規(guī)則
rule
5級標簽
2)、開發(fā)標簽模型
如何開發(fā)標簽模型及測試功能,完成以后需要打成jar包
3)、調(diào)度執(zhí)行
標簽管理平臺中可以直接調(diào)用Oozie Java API調(diào)度執(zhí)行每個標簽模型應用程序
三 標簽模型計算邏輯
在每個標簽模型開發(fā)時,計算邏輯主要涉及到四個方面:
SparkSession初始化
1)、【MySQL】依據(jù)每個標簽tagId獲取標簽數(shù)據(jù)spark.read.format(“jdbc”)
只獲取與標簽相關的所有數(shù)據(jù)
2)、【HBase】解析標簽規(guī)則rule,加載業(yè)務數(shù)據(jù)
spark.read.format(“hbase”)
自定義外部數(shù)據(jù)源方式
3)、【DataFrame】業(yè)務數(shù)據(jù)結合屬性標簽數(shù)據(jù),計算標簽modelDF
不同類型標簽,計算標簽方式不同,分為三種類型,規(guī)則匹配類型標簽、統(tǒng)計類型標簽和挖掘類型標簽
- 規(guī)則匹配類型標簽
業(yè)務字段的值與屬性標簽規(guī)則rule匹配即可 - 統(tǒng)計類型標簽
設計對業(yè)務字段的數(shù)據(jù)進行統(tǒng)計和對屬性標簽規(guī)則rule進行轉(zhuǎn)換,打標簽 - 挖掘類型標簽
使用機器學習算法構建算法模型,使用預測值與屬性標簽規(guī)則整合,打標簽,其中涉及相關計算
4)、【HBase】標簽存儲將用戶標簽數(shù)據(jù)存儲到HBase表中,同步到Elasticsearch索引中 - a)、存儲最新畫像標簽數(shù)據(jù)
存儲HBase表匯總 - b)、同步標簽數(shù)據(jù)到Solr索引中
使用HBase協(xié)處理器完成,自定同步數(shù)據(jù),批量索引插入
SparkSession資源關閉
總結
以上是生活随笔為你收集整理的用户画像标签系统体系解释的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js读取注册表然后打开指定程序
- 下一篇: TensorFlow 学习指南:深度学习