从人工到机器智能,盗版监测在 AI 时代如何破局?
簡介:?隨著 5G 時代來臨,新媒體行業快速發展,盜版傳播平臺多樣化、形式多樣化,版權方難 以通過有限的人力實現最大限度的維權。根據 MUSO 報告顯示 2017 年盜版網站訪問量達到 3000 億次。人工智能逐漸成熟,盜版監測覆蓋難、查找難的問題將迎刃而解。那么如何運行將人工智能技術運用到盜版監測中?
作者| 阿里文娛高級開發工程師 千起
一、背景
隨著 5G 時代來臨,新媒體行業快速發展,盜版傳播平臺多樣化、形式多樣化,版權方難 以通過有限的人力實現最大限度的維權。根據 MUSO 報告顯示 2017 年盜版網站訪問量達到 3000 億次。人工智能逐漸成熟,盜版監測覆蓋難、查找難的問題將迎刃而解。
那么如何運行將人工智能技術運用到盜版監測中?我們先從一個例子開始:下面是一個普 通用戶查找盜版資源的過程:
上面的例子中有兩個操作:搜索查找 + 結果篩選。其中“結果篩選”是用戶閱讀搜索結果, 并確認當前結果是否包含盜版內容。這一過程在人工智能領域叫識別,因為用戶閱讀的是文字, 所以我們叫它:自然語言識別。
普通用戶可以很容易的判斷出“哪些搜索結果包含盜版內容?”,那么機器是怎樣模擬閱搜 索結果呢?下面我們分析 3 個典型的盜版搜索例子。
二、盜版搜索結果分析
1. 用戶搜索盜版影片示例
2.“判斷難點”分析
1)歸類“判斷難點” 名稱近似類:系列類影片、名稱包含類影片;
(1)主題不相關類:結果是資訊、新聞、彩票、廣告等等信息;
(2)同名影片類:相同影片的歌曲、游戲、戲劇、通用名詞等有歧義的信息;
(3)變換類:影片名稱縮寫、人工故意添加的干擾信息。
1)自然語言識別中怎樣處理這幾種情況?
(1)名稱近似類:
答:回想一下人是怎樣處理的?如果一個人是它知道所有影片信息,那么他就知道兩個影片是不一樣的。這類問題在自然語言中屬于知識圖譜(Knowledge Graph,簡寫:KG)的范疇。
(2)主題不相關類:結果是資訊、新聞、彩票、廣告等等信息;
答:普通人因為有一些背景知識,是知道哪些是屬于新聞類,哪些屬于廣告類。由于這些分類是有限的,所以自然語言中通常使用文本分類(Text classification)。常見的文本分類有二分類和多分類(輸出大于 2 種分類結果)。
(3)同名影片類:相同影片的歌曲、游戲、戲劇、通用名詞等有歧義的信息;
答:識別同名需要有兩步。第一步提取句子中的影片實體名稱,第二步辨別句子描述的是哪個領域的影片。這里需要自然語言領域中的 實體識別 (Named-entity recognition,簡寫:NER)+文本分類。通俗講,實體識別是找中句子中的影片,而文本分類是區分這個句子說的是哪個領 域的影片。
(4)變換類: 影片名稱縮寫、人工故意添加的干擾信息。
答:這類問題和問題 1)一樣,這類問題在自然語言中屬于知識圖譜(Knowledge Graph, 簡寫:KG)的范疇。模型需要背景知識,知道影片有哪些縮寫。
三、自然語言識別如何識別盜版呢?
在自然語言處理領域通過有三部分。分別為:文本預處理、特征計算、模型訓練/預測。
??文本預處理:清洗樣本,并將文本格式、符號轉化為統一的形式;
??特征計算: 將文本轉化為數字。這一步可以使用特征工程,或者 詞袋(oneHot)、文 本嵌入(word embedding)模型、深度 Transformer 模型。
??模型訓練/預測:選擇合適的模型算法,訓練模型。模型方面可以使用決策樹類型(例如: XGBoost、LightGBM、Deep Forest 等等),也可以使用深度網絡(例如:LSTM、BERT、 Transformer-XL 等等)。當然也可以使用多個模型(一個模型的輸出,作為一個模型的輸入)
那么模型是什么樣子的?
下面是從樣本輸入到模型產出,落地一個模型需要做的步驟:
四、總結
這篇文章中提到的方法已經落地到實際工程中,準確率可以達到超越人工盜版結果判斷水 平。目前自然語言仍然有非常強的業務領域特點,不同業務領域會遇到不同的行業特定問題, 而且前沿的模型提供原生的英文支持,所以在工程落地場景中,需要結合實際業務場景不斷的 優化模型。
總結
以上是生活随笔為你收集整理的从人工到机器智能,盗版监测在 AI 时代如何破局?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 前端性能优化:当页面渲染遇上边缘计算
- 下一篇: 达摩院 AI 进入中国科技馆,首张 AI