當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本内容安全审核

發布時間：2023/12/31 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了文本内容安全审核小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本內容安全審核

一、描述

短文本過濾實例，可用于智能識別各種違法違規內容，如涉黃、涉政、暴恐、辱罵、廣告、灌水…
當前監管越發嚴重，如何避免用戶發布的內容給平臺造成風險，內容安全審核是避規內容風險的主要方式。
內容安全審核一般分為機審和人審兩種方式并行的策略，各云廠商一般已經集成成接口服務，包括文本、圖像、語音、視頻等，同時也支持私有化部署。
本文只調研關于文本的內容安全審核，文本和圖像還是可以自己做的。

二、公有云廠商方案

2.1 阿里

功能：提供圖片、視頻、文本、語音、網頁等形式內容違規檢測API，覆蓋暴恐、涉政、涉黃、廣告、辱罵、不良場景等風險檢測能力。
技術：鑒黃模型、暴恐分類、文本分類模型、關鍵詞過濾，OCR等。
費用：區間計費：套餐大于0條/日(1.80元/千條)；套餐5000條/日(1.62元/千條)；套餐50000條/日(1.53元/千條)；套餐130000條/日(1.44元/千條)；套餐260000條/日(1.35元/千條)；套餐850000條/日(1.26元/千條)
文本內容安全-阿里云方案，沒有試用。看起來比較成熟穩定(或者說老舊？)、似乎更加注重大客戶。不過文檔似乎不大友好，更偏向于小白的OSS文件檢測。

！內容安全-阿里方案

2.2 百度

功能：支持圖像、文本、語音、短視頻等類型，包括智能鑒黃、違禁違規、惡意推廣、低俗辱罵、低質灌水等。
技術：基于自然語言理解、深度學習等技術，有效識別違規文本內容，具備拼音、諧音、拆字、形近字、影射等變體識別能力；支持自定義黑白名單；15w+的公眾人物庫，其中包含政治人物、明星等。
費用：基礎15元/萬次。 50萬次(750元)； 300萬次(4200元/93折)； 500萬次(6500元/87折)； 1000萬次(12000元/8折)； 5000萬次(55000元/73折)； 1億次(100000元/67折)； 5億次(450000元/6折)
文本內容安全-百度云方案，沒有展示技術框架，API試用比較友好，速度相對其他家比較慢(或許是規則識別后還會走模型？)。

！內容安全-百度方案

2.3 騰訊

功能：支持文本、語音、圖像、視頻、號碼等類型的安全審核，包括涉黃檢測、涉毒檢測、廣告檢測、自定義檢測等。
技術：社區里兩篇技術分享博客，文本匹配+淺層神經網絡(TextCNN->FastText)的技術方案。
費用：套餐180萬條(22元/萬條)；套餐720萬條(19元/萬條)；套餐3600萬條(18元/萬條)；套餐18000萬條(13元/萬條)；套餐36000萬條(10元/萬條)。
文本內容安全-騰訊云方案，文檔真是一個梗了，害，python樣例真的跑不通，暈。此外詳細違規類型代碼的中文說明也沒有。

！內容安全-騰訊方案

2.4 網易

功能：支持文本、語音、圖像、視頻等類型的安全審核，包括色情、廣告、涉政、暴恐等違規內容及各種文字變種，支持20余種語言。
技術：未知。基于海量數據，定制智能策略，高效過濾，包括聚類、詞向量等。
費用：需要注冊才能查看，害。
敏感詞檢測一般作為第一道關卡，同時結合反垃圾智能模型對文本二次識別來打到攔截垃圾內容的目的

！內容安全-網易易盾

三、開源項目

3.1 observerss/textfilter

語言: Python，Star為1.7k。
詳情: 短文本匹配 + 某1w詞敏感詞庫。
技術: Native(for遍歷), BS(二分搜索), DFA(就是字典樹)。

3.2 minitrill/TextAudit

語言: Python，star為0.056k。
詳情: 短視頻app文本審核模塊：1.二分類，惡意與否; 2.詳細分類; 3.后處理(對于不同頻率/不同程度/不同影響力的言論)。
技術: DFA + 分類模型(TIDF + BayesianNetwork)

！內容安全-TextAudit

3.3 houbb/sensitive-word

語言: Java，star為0.339k。
詳情: 高性能敏感詞工具。
技術: DFA + 某6W敏感詞庫。支持用戶自定義敏感詞和白名單、支持數據的數據動態更新，實時生效。

3.4 elulis/sensitive-words

語言: Java，star為0.411k。
詳情: Java快速中文敏感詞過濾，在15k敏感詞庫上的過濾速度超過50M字符每秒。
方法: DFA + 2字符hash優化。

3.5 youzan/YZSpamFilter

語言: Python，star為0.266k。
詳情: 有贊垃圾內容過濾工具，可為帖子、郵件、博客等提供中文垃圾信息過濾服務。
方法: 二分類模型，數據為垃圾郵件過濾。

3.6 toolgood/ToolGood.Words

語言: C#，star為2.9k。
詳情: C#語言，使用StringSearchEx2.Replace過濾，在48k敏感詞庫上的過濾速度超過3億字符每秒。（cpu i7 8750h）
方法: 正則轉DFA，C#改進版AC自動機, 可設置跳字長度，默認全角轉半角，忽略大小寫，跳詞，重復詞，黑名單。

四、總結-建議

十分必要，但又吃力不討好的任務，建議直接用云廠商服務就好，或者是直接用(短文本匹配 + 淺層神經網絡)。
短文本匹配建議上TrieTree(有增刪改查需求的話); 或者是默認詞典用AC自動機, 用戶詞典才用前綴樹。
淺層神經網絡用FastText、TextCNN就好, BERT感覺并沒有太大的必要, 不過上Tiny模型其實也無妨。
拼音、諧音、拆字、形近字、影射等變體可以采用拓展詞典的方式解決，當然模型也可以。
重要的是敏感詞典，不過普通的話，幾萬的量標注其實也并不是太麻煩。

五、引用

騰訊業務安全(1)-天御內容安全
java 敏感詞工具實現思路
網絡常用敏感詞過濾方法
敏感詞過濾方案那些事

希望對你有所幫助!

總結

以上是生活随笔為你收集整理的文本内容安全审核的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Fragstats计算景观生态指数
下一篇： FFmpeg教程（超级详细版）

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔