日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

千万别让AI自动生成字幕:满屏“脏话”不忍直视

發布時間:2023/12/6 综合教程 33 生活家
生活随笔 收集整理的這篇文章主要介紹了 千万别让AI自动生成字幕:满屏“脏话”不忍直视 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

AI自動生成的字幕,能離譜到什么程度?

不僅把“螃蟹”(crab)誤聽成“廢話”(crap),當場爆粗:

甚至還能把“玉米”(corn)給翻譯成p*rn……

關鍵在于,這些是AI給兒童節目自動生成的字幕。

被AAAI 2022收錄的一篇新研究發現,在7013個兒童視頻中,接近40%的節目出現了少兒不宜或臟話等詞匯。

甚至在一個113集的兒童機器人學習欄目中,AI就“爆粗”了103次,平均接近一集一次!

對此,油管(YouTube)在接受《連線》采訪時回應:我們為13歲以下的兒童開發了YouTube Kids,這個APP會關閉字幕生成功能。

但如果真有字幕需求的話,如何才能想辦法減少這種AI生成錯誤?

一起來看看。

先來看看這篇論文的調查結果。

研究人員一共從油管上選出了24個兒童頻道,分別記錄了這些頻道的播放量和訂閱量。

可以看出,這些篩選出來的視頻播放量基本都達到了百萬級,訂閱人數也同樣不少。

然后,研究人員分別試了一下谷歌和AWS(亞馬遜網頁服務)的字幕生成效果。

結果顯示,AI字幕的“少兒不宜”率可謂離譜:

具體來說,兩個AI分別容易在這些“不太恰當”的字詞上出錯:


△圖左亞馬遜,圖右谷歌

在這些數據集中,有一些詞語又尤為“少兒不宜”,例如一些罵人的臟詞:

經過作者們人工檢查(例如確認原視頻是否真的說了臟話),發現AI主要容易在以下幾種情況中出錯:

背景音樂嘈雜

說話者為嬰兒

說話者為兒童

說話者以英語為第二語言

說話者在唱歌

△包括但不限于這些情況

那么,有沒有什么辦法減少這種情況發生呢?

研究人員提出了一個新的數據集,利用近音字詞來構建禁忌詞的“替換”備選。

例如,對于crap這一可能出現的“粗口”,研究人員就給它設置了crab、craft等讀音相似的字詞,便于AI在搞錯時進行替換。

具體來說,他們在BERT、XLM、XLNet等NLP模型上,針對“完形填空”任務進行了重新訓練,也就是用[MASK]遮住部分單詞,讓AI來填寫對應的內容。

結果顯示,在語序正常、前后文案有邏輯的視頻中,AI替換的準確率更高(藍色為正確替換詞):

然而在一些邏輯不強的文案中,成功替換的效果就沒有那么好了:

最終,Megatron和Levenshtein等模型展現出了最好的修復效果,分別給亞馬遜AI帶來了超過25%的正確修復率,給谷歌AI帶來了超過28%的修復率。

看來AI在字幕生成能力上還是任重道遠啊。

論文地址:https://github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

參考鏈接:https://www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html

總結

以上是生活随笔為你收集整理的千万别让AI自动生成字幕:满屏“脏话”不忍直视的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。