當前位置：首頁 >

从人工到机器智能，盗版监测在 AI 时代如何破局？

發布時間：2024/9/3 33 豆豆

生活随笔收集整理的這篇文章主要介紹了从人工到机器智能，盗版监测在 AI 时代如何破局？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介：?隨著 5G 時代來臨，新媒體行業快速發展，盜版傳播平臺多樣化、形式多樣化，版權方難以通過有限的人力實現最大限度的維權。根據 MUSO 報告顯示 2017 年盜版網站訪問量達到 3000 億次。人工智能逐漸成熟，盜版監測覆蓋難、查找難的問題將迎刃而解。那么如何運行將人工智能技術運用到盜版監測中？

作者| 阿里文娛高級開發工程師千起

一、背景

隨著 5G 時代來臨，新媒體行業快速發展，盜版傳播平臺多樣化、形式多樣化，版權方難以通過有限的人力實現最大限度的維權。根據 MUSO 報告顯示 2017 年盜版網站訪問量達到 3000 億次。人工智能逐漸成熟，盜版監測覆蓋難、查找難的問題將迎刃而解。
那么如何運行將人工智能技術運用到盜版監測中？我們先從一個例子開始：下面是一個普通用戶查找盜版資源的過程：

上面的例子中有兩個操作：搜索查找 + 結果篩選。其中“結果篩選”是用戶閱讀搜索結果，并確認當前結果是否包含盜版內容。這一過程在人工智能領域叫識別，因為用戶閱讀的是文字，所以我們叫它：自然語言識別。
普通用戶可以很容易的判斷出“哪些搜索結果包含盜版內容？”，那么機器是怎樣模擬閱搜索結果呢？下面我們分析 3 個典型的盜版搜索例子。

二、盜版搜索結果分析

1. 用戶搜索盜版影片示例

2.“判斷難點”分析

1）歸類“判斷難點” 名稱近似類：系列類影片、名稱包含類影片；
（1）主題不相關類：結果是資訊、新聞、彩票、廣告等等信息；
（2）同名影片類：相同影片的歌曲、游戲、戲劇、通用名詞等有歧義的信息；
（3）變換類：影片名稱縮寫、人工故意添加的干擾信息。

1）自然語言識別中怎樣處理這幾種情況？
（1）名稱近似類：
答：回想一下人是怎樣處理的？如果一個人是它知道所有影片信息，那么他就知道兩個影片是不一樣的。這類問題在自然語言中屬于知識圖譜（Knowledge Graph，簡寫：KG）的范疇。
（2）主題不相關類：結果是資訊、新聞、彩票、廣告等等信息；
答：普通人因為有一些背景知識，是知道哪些是屬于新聞類，哪些屬于廣告類。由于這些分類是有限的，所以自然語言中通常使用文本分類（Text classification）。常見的文本分類有二分類和多分類（輸出大于 2 種分類結果）。
（3）同名影片類：相同影片的歌曲、游戲、戲劇、通用名詞等有歧義的信息；
答：識別同名需要有兩步。第一步提取句子中的影片實體名稱，第二步辨別句子描述的是哪個領域的影片。這里需要自然語言領域中的實體識別 (Named-entity recognition，簡寫：NER)+文本分類。通俗講，實體識別是找中句子中的影片，而文本分類是區分這個句子說的是哪個領域的影片。
（4）變換類：影片名稱縮寫、人工故意添加的干擾信息。
答：這類問題和問題 1）一樣，這類問題在自然語言中屬于知識圖譜（Knowledge Graph，簡寫：KG）的范疇。模型需要背景知識，知道影片有哪些縮寫。

三、自然語言識別如何識別盜版呢？

在自然語言處理領域通過有三部分。分別為：文本預處理、特征計算、模型訓練/預測。
??文本預處理：清洗樣本，并將文本格式、符號轉化為統一的形式；
??特征計算：將文本轉化為數字。這一步可以使用特征工程，或者詞袋（oneHot）、文本嵌入（word embedding）模型、深度 Transformer 模型。
??模型訓練/預測：選擇合適的模型算法，訓練模型。模型方面可以使用決策樹類型（例如： XGBoost、LightGBM、Deep Forest 等等），也可以使用深度網絡（例如：LSTM、BERT、 Transformer-XL 等等）。當然也可以使用多個模型（一個模型的輸出，作為一個模型的輸入）

那么模型是什么樣子的？

下面是從樣本輸入到模型產出，落地一個模型需要做的步驟：

四、總結

這篇文章中提到的方法已經落地到實際工程中，準確率可以達到超越人工盜版結果判斷水平。目前自然語言仍然有非常強的業務領域特點，不同業務領域會遇到不同的行業特定問題，而且前沿的模型提供原生的英文支持，所以在工程落地場景中，需要結合實際業務場景不斷的優化模型。

總結

以上是生活随笔為你收集整理的从人工到机器智能，盗版监测在 AI 时代如何破局？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：前端性能优化：当页面渲染遇上边缘计算
下一篇：达摩院 AI 进入中国科技馆，首张 AI