日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

万能的BERT连文本纠错也不放过

發布時間:2024/7/5 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 万能的BERT连文本纠错也不放过 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一只小狐貍帶你解鎖煉丹術&NLP秘籍

作者:孫樹兵
學校:河北科技大學
方向:QA/NLU/信息抽取
編輯:小軼

背景

文本糾錯(Spelling Error Correction)技術常用于文本的預處理階段。在搜索引擎、輸入法和 OCR 中有著廣泛的應用。2020年的文本糾錯自然也離不開 BERT 的表演。但原生的 BERT 在一些NLP任務如error detection、NER中表現欠佳,說明預訓練階段的學習目標中對相關模式的捕獲非常有限,需要根據任務進行一定改造。在文本糾錯任務中亦是如此。

此前文本糾錯的SOTA方法采用了基于 Bert 的 seq2seq 結構,直接生成糾錯后的字符序列。但是經觀察發現,這樣的方法總是傾向于不進行任何糾錯,錯誤檢測能力很低。一種可能的解釋是 Bert 在預訓練時只掩碼了15%的字符,所以并不能夠充分學習所有字符的上下文。

為了提高錯誤檢測能力,本文在SOTA方法的基礎上又添加了一個錯誤檢測網絡。分錯誤檢測和糾正兩步走。先檢測每一個字的錯誤概率,然后根據檢測結果將可能的錯別字 soft-mask,其實就是錯誤概率:( 滑動查看完整公式 )

原字符的

再輸給基于Bert的修正網絡。這樣就強制修正網絡學習了錯別字的上下文。下面將詳細為大家介紹模型的實現細節。

論文鏈接:https://arxiv.org/pdf/2005.07421.pdf

Arxiv訪問慢的小伙伴也可以在訂閱號后臺回復關鍵詞【0610】下載論文PDF。

模型結構

本文提出的 Soft-Masked Bert 模型可分為三個部分:

  • 檢測網絡采用 Bi-GRU 預測字符在每個位置出現錯誤的概率。

  • 用錯誤概率對 input embedding 做 soft-mask。soft-mask 是傳統 hard-mask 的延伸。當錯誤概率等于1時,前者退化為后者。

  • 修正網絡為原文中每個位置挑選替換字。實現過程與單純使用BERT的SOTA方法相似。

檢測網絡

檢測網絡是一個二分類的序列標注模型。模型的輸入是character embedding序列。其中? 表示字符? 的 character embedding(即word embedding, position embedding 和 segment embedding 的總和)。輸出是標簽序列?。 為第 i 個字符的標簽,等于 1 表示字符錯誤,0 表示正確。我們記? 為? 等于 1 的概率。

本文采用雙向 GRU(Bi-GRU) 實現檢測網絡。字符錯誤概率? 可以定義為

其中, 表示檢測網絡給出的條件概率, 是 sigmoid 函數, 為 Bi-GRU 的隱狀態,? 和? 是參數。隱狀態可以定義為:

Soft-Mask

soft-masked embedding 為 input embedding 和 mask embedding 的加權和。權重由該字符的錯誤概率得到。第i個字符的 soft-masked embedding 可形式化地定義為:

是 input embedding, 是 mask embedding。如果錯誤概率很高,則? 接近?。

修正網絡

修正網絡是一個基于 Bert 的多類別序列標注模型。輸入為 soft-masked embedding 序列? ,輸出為替換字符序列? 。

BERT 由12個相同的 block 組成。每個 block 包含一次 multi-head self-attention 操作和一個前饋神經網絡。我們將BERT最后一層的隱狀態序列記為?。則給定待糾錯的字符序列?,字符? 被替換為候選字符表中第? 個字符的條件概率為

其中, 和? 為參數; 是?和 Bert 最后一層隱狀態? 通過殘差連接后得到的,即?。校正網絡的最后一層采用 softmax 函數,從候選字符列表中選擇概率最大的字符作為字符作為輸出。

訓練過程

Soft-masked BERT 的訓練是 Seq2seq 進行的。訓練目標包括錯誤檢測和錯誤糾正兩部分,其目標函數分別為:

總目標函數為兩者的線性組合:。其中。

實驗結果

在 SIGHAN 和 News Title 兩個數據集上進行了實驗。本文的 Soft-Masked BERT方法在兩個數據集上基本都取得了最好結果。

總結

本文提出了一種新的神經網絡結構Soft-masked Bert,實現中文文本糾錯。該結構包含錯誤檢測和修正兩個部分。通過Soft-mask技術將檢測結果編碼到修正網絡。實驗結果表明該方法的性能優于單純使用Bert的基線模型。并且這一方法具有較強的普適性,也可用于其他語言的糾錯任務。

本文收錄于原創專輯:《賣萌屋@自然語言處理》

重磅驚喜:賣萌屋小可愛們苦心經營的?自然語言處理討論群?成立三群啦!掃描下方二維碼,后臺回復「入群」即可加入。眾多頂會審稿人、大廠研究員、知乎大V以及美麗小姐姐(劃掉?????♀?)等你來撩噢~(手慢無

  • 告別自注意力,谷歌為Transformer打造新內核Synthesizer

  • NLP中的少樣本困境問題探究

  • ACL20 | 讓笨重的BERT問答匹配模型變快!

  • 7款優秀Vim插件幫你打造完美IDE

  • 賣萌屋原創專輯首發,算法鎮魂三部曲!

  • GPT-3誕生,Finetune也不再必要了!NLP領域又一核彈!

夕小瑤的賣萌屋

_

關注&星標小夕,帶你解鎖AI秘籍

訂閱號主頁下方「撩一下」有驚喜哦

總結

以上是生活随笔為你收集整理的万能的BERT连文本纠错也不放过的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品久久久久久吹潮 | 亚洲怡春院 | 国产精品夫妻 | 国产在线一区二区视频 | 最新黄色网页 | 久久久久国产精品夜夜夜夜夜 | 午夜激情一区二区 | 色很久| 精品黑人一区二区三区国语馆 | 国产精品久久久久久久久久久久久 | 国产一级二级在线观看 | 亚洲美女综合 | 天天天色综合 | 国产高潮流白浆喷水视频 | 一级a性色生活片久久无 | 欧美性videos高清精品 | 久久久久久久久久久久久久久 | 香蕉一区二区 | 国产一级影院 | 精品国产一二三四区 | www.五月天com| 国产丝袜美腿一区二区三区 | 91爱啪| 五月婷在线观看 | 永久免费黄色 | 欧美天堂 | 天堂网视频在线 | 澳门黄色录像 | 向日葵视频在线播放 | 久久三级网 | 亚洲成人xxx | 亚洲视频中文字幕在线观看 | 国产偷啪 | 日韩精品一二 | 蜜桃传媒一区二区亚洲av | 欧美黑人欧美精品刺激 | 女人的天堂av在线 | 影音先锋在线视频观看 | 成人小视频在线看 | 成人免费视频一区二区三区 | 日韩电影第一页 | 又黄又色的网站 | 黄页网站在线看 | 黄色片久久久 | 91插插插永久免费 | 日韩中文字幕视频 | 少妇免费看 | 久草青青视频 | 探花视频在线版播放免费观看 | 女性向小h片资源在线观看 日本天天操 | 日本丰满少妇 | 国产精品自产拍 | 一边顶弄一边接吻 | 中文字幕一区二区精品 | 一炮成瘾1v1高h | 日韩av图片| 成人性生交大片 | 国内自拍区 | 乖女从小调教h尿便器小说 欧美韩一区二区 | 亚洲熟妇av日韩熟妇在线 | 亚洲一区二区欧美 | 2018国产大陆天天弄 | 欧洲做受高潮欧美裸体艺术 | 玖玖久久 | 在线毛片网站 | 黄色aaa视频| 天天看天天摸天天操 | 波多野结衣在线网址 | 干美女视频 | 视频黄色免费 | 国产黑丝精品 | 精东传媒在线观看 | 日韩av专区 | 中文字幕在线视频免费观看 | 久久av无码精品人妻出轨 | 国产一级在线观看 | 亚洲欧美另类图片 | 色哟哟视频在线观看 | 精品久久人妻av中文字幕 | 黄色免费网站视频 | 成人看片网站 | 亚洲激情偷拍 | 91在线在线| 四虎国产精品成人免费入口 | 中国大陆一级毛片 | 爱就操| 免费观看视频在线观看 | 国产性生活 | 人妻互换一区二区激情偷拍 | 国产91热爆ts人妖系列 | www.色婷婷.com | 婷婷丁香一区二区三区 | 色屁屁一区二区三区视频 | 韩国三级在线视频 | 亚洲国产精品影院 | 午夜影院免费版 | 亚洲黄色免费 | 国产艳俗歌舞表演hd | 欧美精品自拍 |