當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

标签类目知识图谱_短视频标签体系

發布時間：2023/12/14 编程问答 69 豆豆

生活随笔收集整理的這篇文章主要介紹了标签类目知识图谱_短视频标签体系小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

個人工作的一些短視頻標簽體系建立。

1.標簽體系建立

可以參考谷歌的標簽體系，或者根據知識圖譜建立。

參考之后需要結合自己實際的業務進行粗化和細化，因為谷歌這個是針對一般的建立的，需要根據平臺內容的分布和調性進行適當調整。

至于標簽定義可以參考wiki的相關詞匯的定義。

https://cloud.google.com/natural-language/docs/categories?cloud.google.com

谷歌的部分標簽體系

2.樣本標注

需要將語料從無監督轉為有監督，小平臺哪有那么多人力蠻力標注，所以只能先做無監督咯。目前主要做了無監督的工作，也就是用詞袋做召回。主要將標簽分為2級，直接對第2級分類，分不了的才分到1級。

首先對視頻文本，用每個標簽下的字典召回，這樣就可以得到這個視頻所有可能的標簽，然后用就是merge策略了。

前面過程是召回所有可能標簽，接下來是對標簽進行排序，接下來就構造一個合理的評分體系，選出合理的標簽。

1.計算每個label的得分

對不同位置提取的關鍵詞賦予不同權重，例如標題是*1.2，description是1，author name 1.6，總體原則是文本越長，權重越低。最后得到每個label的分數。

還有對不同的label乘以不同分數，這個主要根據人工標注的結果反饋的，例如某個label總是標錯，要么字典比較差，要么比較難分，所以就降權處理，優先標到其他類。

2.排序

有了每個label的分數，也即是第二層標簽，這樣就知道第一層的分數。

有2策略

a、選出第一層得分最高的，然后再選擇相應第二層的得分最高的標簽，這樣做的意義在于如果整個視頻出現大量了tv movie 等詞匯，那么基本屬于娛樂類，不會垮一級大類犯錯，就可以避免第2層的movie得分不如mobile phone（在目前進行項目中屬于另一個大類），但是整體語義上娛樂，因此最后只會在movie 和tv中做選擇，不會出現mobile的結果

a的做法在于如果想做多分類就沒法玩了，以及沒法直接比較confidence，例如某個視頻只有一個關鍵詞召回，這個敢信么，或者根據關鍵詞講了好多主題，最后選了一個標簽，這種敢信么。

關于confidence主要考慮

整個視頻的語義上屬于一級標簽，類目越少越好，也即是越集中，分數越高越好，說明有好多關鍵詞支撐結果，如果根據關鍵詞召回之后，整個視頻出現好多個大類，說明這個可能是SEO優化之后的，命中多個熱門詞最后的結果也是非常不靠譜，如果只是體現了1-2個大類，最后結果是比較明確的。

二級標簽的得分越高越好，說明有多個關鍵詞支撐，

關鍵詞的絕對數目，如果某個視頻只有一個關鍵詞，那么就意味著只有一個一級，一個二級，可信度就是100%了么，這種也許只能說明目前字典覆蓋面不夠，導致無法召回正確類，因此根據觀察一般二級標簽在視頻可召回的關鍵詞最多不會超過5個，因此用5作為上界，取score=log（n+1）/log（5+1）if n<5 else score=1 作為關鍵詞個數。

b.帶權重的softmax的具體做法：

接著a的邏輯，首先對第一層大分類的分數，做softmax分類，也就得到屬于第一層的不同標簽的概率P（FIRST_LEVEL）；
然后在用乘以第二層的分數，再經過一層softmax，也即是P(SECOND|FIRST)的條件概率，這樣就得到在某一個視頻內容各個第二層標簽的概率；
接著在乘以關鍵詞的權重，就得到最后某個標簽的概率。

總之希望最后二級標簽是大類分數越高越好，二級標簽分數越高越好，關鍵詞絕對數越多越好，這樣視頻意味整體語義就是比較清晰，單一，而且涉及到文字都被事先涉及的字典囊括，且數量非常多，這種是最靠譜的。比較頭疼遇到講的主題特別多，這種錯誤率也比較大。或者是僅憑1-2個關鍵詞就斷定是某個分類的（也就是字典不完善）。

目前根據這種做法準確率可以達到70%左右，召回率80%左右。

3.最近又在做第二版的標簽：

第一版的標簽定義太著急，導致很多東西沒法考慮，有些資料是在項目快完結時候才到的，所以重新做了一版標簽體系。

現在有了一些新的總結：1.標簽定義可以參考YouTube的 topic， 2.做標簽前面已經總結了用字典的方式可以去搞定一些，但是標簽體系一旦到了一定規模上百估計就很難用字典能分個七七八八了，這時候一定要想到怎么去找出自動化找出一批樣本，不管是競爭廠商還是哪里，一定是自動化找出。如果用人力標，成本非常貴，導致后期機器學習的樣本成本非常高。所以如果設計一個自動收集的機制就顯得挺考驗產品的能力。

現在有些初步的思路，1.通過用label的關鍵詞去大廠如果YouTube 去爬去相關的視頻，作為訓練的語料，2.通過用戶的行為數據，如標記專家用戶、或者圖之類的算法去挖掘。3.從產品層有沒有辦法做一個隱式的機制去搞定呢？

總結

以上是生活随笔為你收集整理的标签类目知识图谱_短视频标签体系的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

标签类目 知识图谱_短视频标签体系

1.標簽體系建立

2.樣本標注

總結

标签类目知识图谱_短视频标签体系