大数据标签体系建立
我們要為大數據平臺建立一套標簽體系,首先要明確我們要建立什么,在我看來我們需要建立獨立的三樣東西:類目標簽體系、用戶畫像和應用場景。
類目標簽體系是以業務核心為中心建立的,業務核心就是你要做的這個大數據平臺里面最重要的那個點。舉點例子,電商平臺的業務核心就是商品,教育平臺的核心業務就是教育。電商平臺下的類目標簽就以商品的分類為基礎構建類目樹,樹的根節點就是商品,往下分可能包括女裝/內衣、男裝/運動戶外、女鞋/男鞋/箱包等子類,等到分到了葉子節點(注意不是越細越好,再往下分對于業務毫無助益了就可以不分了),就可以分析葉子節點的自有屬性并且添加到類目樹上面去,那么這時一棵類目樹就構建好了。怎么確定一個大數據平臺的業務核心是什么,這里我提供一種方法:利用頭腦風暴把有關涉及該平臺的所有事物羅列出來,然后根據物品與平臺的關聯性大小為基準,將關聯性較小的物品一一刪除,最后留下來的那個物品就是該平臺的業務核心。
但是一直到這里我們建立的并不是類目標簽體系,只能稱之為類目屬性體系。如何從類目標簽體系進化到類目屬性體系呢?這個時候我們就需要對標簽有更加深入的了解了。如果說標簽就是一些描述性的詞語或者短語的話,那么這些標簽從何而來?我們可以從原始的數據源中獲取到標簽,通過純粹的語義分析對自然語言處理來獲取,這里我們獲取到的是原始數據標簽。對原始數據進行一定的統計學分析之后我們也可以獲取到一部分標簽,這里的標簽我們稱之為統計數據標簽?;蛘呶覀円部梢詫υ紨祿涍^算法模型計算后獲取一些高級標簽,這里的標簽我們稱之為算法數據標簽。總結來說,標簽分為三類:原始數據標簽、統計數據標簽、算法數據標簽。類目屬性體系中只包括原始數據標簽,而我們需要的類目標簽體系中需要囊括這三種類型的標簽。
至于用戶畫像,我們可以先淺顯地認為這就是人的維度。精確來說,這里的用戶畫像是在為這個業務系統中所有涉及到的角色做總結性的畫像,用戶畫像本質上也是一套標簽體系,只是有著相同的結構而非相同的內容。在用戶畫像這套標簽體系中,分為靜態信息和動態信息兩部分。靜態信息就是用戶的自有屬性,相當于類目標簽體系中葉子節點的自有屬性,同樣的在靜態信息中包含的標簽也應該包括三種類型的標簽。動態信息就是一個比較抽象的概念了,它主要就是要記錄什么人什么時間什么地點做了一件什么事情(這部分詳細內容看另外一篇)。如果拿數據庫記錄來說,靜態信息就相當于記錄進去一條信息,然后可以對這個信息做修改,或者再增加新的字段;動態信息就是不停地增加新的字段,但是不可以修改之前添加進去的記錄。
最后來說應用場景,當我們把業務核心和用戶畫像理清楚之后,就可以來分析應用場景了,業務核心之間(多個業務核心的狀況下)、業務和用戶角色之間、用戶角色和用戶角色之間,一旦產生交互就可以形成應用場景,但是我們仍然需要記住一切以業務范圍為首要考量,對于不在業務范圍內的應用場景我們需要剔除出去??梢哉f,應用場景囊括了所有游離的標簽。
在把類目標簽體系、用戶畫像和應用場景都建立好了之后,我們就可以以業務場景為基礎寫模型了(這里我更喜歡稱呼它為小故事),就是完整描述下來一套業務流程,這樣就能更加清楚地了解到這三者之間是一種怎樣相互協作的關系了。
總結
- 上一篇: [句子成分] 三、宾语
- 下一篇: 电脑没有无线网卡如何联网