日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

标签类目 知识图谱_短视频标签体系

發布時間:2023/12/14 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 标签类目 知识图谱_短视频标签体系 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

個人工作的一些短視頻標簽體系建立。

1.標簽體系建立

可以參考谷歌的標簽體系,或者根據知識圖譜建立。

參考之后需要結合自己實際的業務進行粗化和細化,因為谷歌這個是針對一般的建立的,需要根據平臺內容的分布和調性進行適當調整。

至于標簽定義可以參考wiki的相關詞匯的定義。

https://cloud.google.com/natural-language/docs/categories?cloud.google.com

谷歌的部分標簽體系

2.樣本標注

需要將語料從無監督轉為有監督,小平臺哪有那么多人力蠻力標注,所以只能先做無監督咯。目前主要做了無監督的工作,也就是用詞袋做召回。主要將標簽分為2級,直接對第2級分類,分不了的才分到1級。

首先對視頻文本,用每個標簽下的字典召回,這樣就可以得到這個視頻所有可能的標簽,然后用就是merge策略了。

前面過程是召回所有可能標簽,接下來是對標簽進行排序,接下來就構造一個合理的評分體系,選出合理的標簽。

1.計算每個label的得分

對不同位置提取的關鍵詞賦予不同權重,例如標題是*1.2,description是1,author name 1.6,總體原則是文本越長,權重越低。最后得到每個label的分數。

還有對不同的label乘以不同分數,這個主要根據人工標注的結果反饋的,例如某個label總是標錯,要么字典比較差,要么比較難分,所以就降權處理,優先標到其他類。

2.排序

有了每個label的分數,也即是第二層標簽,這樣就知道第一層的分數。

有2策略

a、選出第一層得分最高的,然后再選擇相應第二層的得分最高的標簽,這樣做的意義在于如果整個視頻出現大量了tv movie 等詞匯,那么基本屬于娛樂類,不會垮一級大類犯錯,就可以避免第2層的movie得分不如mobile phone(在目前進行項目中屬于另一個大類),但是整體語義上娛樂,因此最后只會在movie 和tv中做選擇,不會出現mobile的結果

a的做法在于如果想做多分類就沒法玩了,以及沒法直接比較confidence,例如某個視頻只有一個關鍵詞召回,這個敢信么,或者根據關鍵詞講了好多主題,最后選了一個標簽,這種敢信么。

關于confidence主要考慮

  • 整個視頻的語義上屬于一級標簽,類目越少越好,也即是越集中,分數越高越好,說明有好多關鍵詞支撐結果,如果根據關鍵詞召回之后,整個視頻出現好多個大類,說明這個可能是SEO優化之后的,命中多個熱門詞最后的結果也是非常不靠譜,如果只是體現了1-2個大類,最后結果是比較明確的。
  • 二級標簽的得分越高越好,說明有多個關鍵詞支撐,
  • 關鍵詞的絕對數目,如果某個視頻只有一個關鍵詞,那么就意味著只有一個一級,一個二級,可信度就是100%了么,這種也許只能說明目前字典覆蓋面不夠,導致無法召回正確類,因此根據觀察一般二級標簽在視頻可召回的關鍵詞最多不會超過5個,因此用5作為上界,取score=log(n+1)/log(5+1)if n<5 else score=1 作為關鍵詞個數。
  • b.帶權重的softmax的具體做法:

    • 接著a的邏輯,首先對第一層大分類的分數,做softmax分類,也就得到屬于第一層的不同標簽的概率P(FIRST_LEVEL);
    • 然后在用乘以第二層的分數,再經過一層softmax,也即是P(SECOND|FIRST)的條件概率,這樣就得到在某一個視頻內容各個第二層標簽的概率;
    • 接著在乘以關鍵詞的權重,就得到最后某個標簽的概率。

    總之希望最后二級標簽是大類分數越高越好,二級標簽分數越高越好,關鍵詞絕對數越多越好,這樣視頻意味整體語義就是比較清晰,單一,而且涉及到文字都被事先涉及的字典囊括,且數量非常多,這種是最靠譜的。比較頭疼遇到講的主題特別多,這種錯誤率也比較大。或者是僅憑1-2個關鍵詞就斷定是某個分類的(也就是字典不完善)。

    目前根據這種做法準確率可以達到70%左右,召回率80%左右。

    3.最近又在做第二版的標簽:

    第一版的標簽定義太著急,導致很多東西沒法考慮,有些資料是在項目快完結時候才到的, 所以重新做了一版標簽體系。

    現在有了一些新的總結:1.標簽定義可以參考YouTube的 topic, 2.做標簽前面已經總結了用字典的方式可以去搞定一些,但是標簽體系一旦到了一定規模 上百 估計就很難 用字典能分個七七八八了,這時候一定要想到怎么去找出自動化找出一批樣本,不管是競爭廠商還是哪里,一定是自動化找出。如果用人力標,成本非常貴,導致后期機器學習的樣本成本非常高。所以如果設計一個自動收集的機制就顯得挺考驗產品的能力。

    現在有些初步的思路,1.通過用label的關鍵詞去大廠如果YouTube 去爬去相關的視頻,作為訓練的語料,2.通過用戶的行為數據,如標記專家用戶、或者圖之類的算法去挖掘。3.從產品層有沒有辦法做一個隱式的機制去搞定呢?

    總結

    以上是生活随笔為你收集整理的标签类目 知识图谱_短视频标签体系的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。