日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

NER数据增强、badcase处理、数据优化

發布時間:2025/3/21 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NER数据增强、badcase处理、数据优化 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • 如何修正NLP問題的bad case
  • NLP.TM | 近期做NER的反思

一、數據增強

在NLP層面思考數據量不足(冷啟動)的問題,數據增強其實是一個還不錯的策略。

  • 調整詞句順序。短句用詞維度,長句可以n-gram或者是句子級別的調換順序。
  • 對NER,可以把特定槽位里面的詞替換為其他同類型的詞,當然文本分類也可以這么做。(收益大)
  • 總結規則模板,直接生成數據。(收益不小)
  • 復制粘貼。(數據量少時收益不明顯,數據量大以后有少量收益)
    • 復制粘貼也是有技巧的,例如拿一些比較差的bad case的特色case生成糾正后放入訓練集。

注意:不要盲目地就做這個數據增強,而是在進行了一輪試驗后,經過bad case分析發現一些數據量問題或者是覆蓋率不足的問題時,再來嘗試數據增強,畢竟數據增強是會引入過擬合風險的。

二、開源數據優化

 NER優化,首先采用的就是加開源數據,會有很好的泛化效果:

積累語料:

總結

以上是生活随笔為你收集整理的NER数据增强、badcase处理、数据优化的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。