日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语料库

發布時間:2023/12/10 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语料库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

思路:
-語料庫有什么用,在統計機器學習中的地位,用圖說明
-語料庫的一些基本概念。如熟語料、生語料等。
-有哪些著名的語料庫。人民日報語料庫、WordNet等。
-如何構建語料庫。主要是成本、規范。
一些歷史:
- 1957年,Chomsky的《句法理論》及其以后一系列著作的發表,根本改變了語料庫語言學的發展狀況。質疑了語料的作用,語料庫研究陷入沉寂期。
- 80年以后,隨著統計方法的流行,語料庫語言學復興。1983年,英國Lancaster大學的LOB語料庫,研究英國英語,500篇,每篇2000詞。法國國家科學研究中心與美國芝加哥大學聯合,建成法語語料庫TLF語料庫,2000書面文本,1.5億詞。芬蘭赫爾辛基大學建成歷史英語語料庫(850-1720年),1600萬詞。1988年倫敦大學建成國際英語語料庫ICE。1981年-1991年,480個語料庫項目得到資助。對比之下,1959年-1980年,只有140個語料庫項目。
- 國內語料庫研究歷史。1979年,武漢大學,漢語現代文學作品語料庫,527萬字。1998年,清華大學,1億漢字的語料庫,著重研究歧義切分問題。北京大學計算語言研究所,從1992年開始現代漢語語料庫的多級加工,先后建成2600萬字的1998年《人民日報》標注語料庫、2000萬字漢字1000多萬英語單詞的英漢雙語語料庫,以及8000萬字篇章級別信息科學與技術領域的語料庫。之前的錄入手段全靠手工,現在收集數據很簡單。
- 文本產權(國家知識產權保護空白)、標記產權
- 單語。雙語(機器翻譯)。是否標注?是,熟語料;否,生語料。平衡語料,各個領域或類別或時間或地域的平衡。平行語料庫
- 白菜、白桌子,豬肉、天鵝肉
- 美國LDC 語料庫,定義了漢語某些標準。
- http://www.huaxia.com/zhwh/wszs/2009/01/1294679.html
- 幾個典型的語料庫:
–Brown Corpus 20世紀60年代,Francis和Kucera在Brown大學建立,世界上第一個根據系統性原則采集樣本的標準語料庫,100萬詞規模。
待續

總結

以上是生活随笔為你收集整理的语料库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。