日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用

發布時間:2025/4/5 pytorch 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

隨著深度學習的普及,有越來越多的研究應用新模型到中文分詞上,讓人直呼“手快有,手慢無”。不過這些神經網絡方法的真實水平如何?具體數值多少?以Sighan05中的PKU數據集為例,真像一些論文所言,一個LSTM-CRF就有96.5%嗎?或者像某些工業界人士那樣,動輒“基于深度學習的98%準確率”,“99% 的分詞成功率”嗎?

如果數字真的這么好看,那中文分詞這個課題幾乎沒有研究意義了。更何況,中文分詞標準難以統一,任何語料庫都存在內部標注一致性(inter-annotator agreement)的問題。一些著名的語料庫(如CTB)設有質量檢測機制,雖然沒有公布具體內部標注一致性數值,但Shen 2016抽樣重新標注校驗的CTB5在分詞上的一致性才達到99.10%;可據此推測CTB的內部一致性低于99%。而其他著名語料庫(如PKU、MSR等)則既沒有公布一致性數值,也沒有人做相關試驗。國家語委語料庫則簡單地說了句“標注是指分詞和詞類標注,已經經過3次人工校對,準確率大于>98%”;綜合學術界窮極特征工程與語言學資源(詞典)的分詞器不超過98%的分值這一事實來保守估計,這些語料庫的一致性不會超過98%。而PKU分值幾乎沒有超過96%的,所以任何聲稱在PKU上拿到97%以上所謂“準確率”的說法,可信度都不高。

本文收集分析一些可信的state of art數據,嘗試還原當前(2017年左右)中文分詞的真實面貌。聯想到最近的造假

總結

以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。