日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

用户画像标签系统体系解释

發(fā)布時間:2023/12/14 windows 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用户画像标签系统体系解释 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • 一 標簽系統(tǒng)體系架構
    • 二 標簽模型開發(fā)流程
    • 三 標簽模型計算邏輯

一 標簽系統(tǒng)體系架構

1)、標簽數(shù)據(jù)
標簽管理平臺中,每個標簽開發(fā)時,首先需要在管理平臺上注冊(新建標簽:4級標簽和5級標簽)
業(yè)務標簽和屬性標簽
業(yè)務標簽對應標簽模型,每個標簽模型就是Spark Application,運行程序可以給用戶打上標簽:TagName
模型表中存儲數(shù)據(jù):spark application運行時參數(shù)設置核心數(shù)據(jù):
tagName -> tagRule:標簽規(guī)則

2)、業(yè)務數(shù)據(jù)
依據(jù)每個業(yè)務標簽(4級標簽)的標簽規(guī)則rule,獲取業(yè)務數(shù)據(jù)
inType 判斷業(yè)務數(shù)據(jù)的數(shù)據(jù)源,然后解析參數(shù)為Meta,加載業(yè)務數(shù)據(jù)(SparkSQL)
此處:整個項目業(yè)務數(shù)據(jù)主要存儲在HBase表中

3)、構建標簽
使用業(yè)務數(shù)據(jù)和標簽數(shù)據(jù)(屬性標簽對應tagName和rule)計算標簽,得到modelDF,將其保存到HBase表中。
畫像標簽表:tbl_profile
存儲標簽數(shù)據(jù)時,也將標簽數(shù)據(jù)存儲同步存儲到Elasticsearch索引中,方便使用標簽進行查詢用戶
基于Elasticsearch為HBase表構建二級索引

二 標簽模型開發(fā)流程

展示每個標簽模型在實際開發(fā)時主要流程:
1)、標簽管理平臺新建標簽
123級標簽
34級標簽
設置相關屬性,包含標簽的屬性字段的值和對應模型字段的值
標簽模型對應Spark Application名稱,及標簽模型分類,尤其關鍵為標簽規(guī)則
rule
5級標簽
2)、開發(fā)標簽模型
如何開發(fā)標簽模型及測試功能,完成以后需要打成jar包
3)、調(diào)度執(zhí)行
標簽管理平臺中可以直接調(diào)用Oozie Java API調(diào)度執(zhí)行每個標簽模型應用程序

三 標簽模型計算邏輯

在每個標簽模型開發(fā)時,計算邏輯主要涉及到四個方面:

SparkSession初始化

1)、【MySQL】依據(jù)每個標簽tagId獲取標簽數(shù)據(jù)spark.read.format(“jdbc”)
只獲取與標簽相關的所有數(shù)據(jù)
2)、【HBase】解析標簽規(guī)則rule,加載業(yè)務數(shù)據(jù)
spark.read.format(“hbase”)
自定義外部數(shù)據(jù)源方式
3)、【DataFrame】業(yè)務數(shù)據(jù)結合屬性標簽數(shù)據(jù),計算標簽modelDF

不同類型標簽,計算標簽方式不同,分為三種類型,規(guī)則匹配類型標簽、統(tǒng)計類型標簽和挖掘類型標簽

  • 規(guī)則匹配類型標簽
    業(yè)務字段的值與屬性標簽規(guī)則rule匹配即可
  • 統(tǒng)計類型標簽
    設計對業(yè)務字段的數(shù)據(jù)進行統(tǒng)計和對屬性標簽規(guī)則rule進行轉(zhuǎn)換,打標簽
  • 挖掘類型標簽
    使用機器學習算法構建算法模型,使用預測值與屬性標簽規(guī)則整合,打標簽,其中涉及相關計算
    4)、【HBase】標簽存儲將用戶標簽數(shù)據(jù)存儲到HBase表中,同步到Elasticsearch索引中
  • a)、存儲最新畫像標簽數(shù)據(jù)
    存儲HBase表匯總
  • b)、同步標簽數(shù)據(jù)到Solr索引中
    使用HBase協(xié)處理器完成,自定同步數(shù)據(jù),批量索引插入
    SparkSession資源關閉

總結

以上是生活随笔為你收集整理的用户画像标签系统体系解释的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。