日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么?

發(fā)布時間:2023/12/10 编程问答 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對比、分析語料庫的特點,需要從語料來源、規(guī)模等,加工處理程度,應(yīng)用系統(tǒng)提供的功能等幾個方面進行(只對比漢語語料庫):

1. CCL的語料庫有部分口語(北京話調(diào)查)語料,包含部分影視作品(如百家講壇、周星馳電影等)語料,網(wǎng)絡(luò)語料,書面語語料。其中,報紙語料占絕對大比例。CCL最新一次更新,增加了許多學術(shù)論文語料;此外CCL還有古代漢語和中英雙語語料庫,其中雙語語料庫不對外。BCC包括文學、 報刊、微博、科技、古漢語、學生作文等多個領(lǐng)域,其中報刊、文學、微博、科技、古漢語都有20億以上的規(guī)模,各類別分布相對均衡。

2. CCL語料庫規(guī)模小于BCC。

3. CCL是生語料庫(除了分類、題目、作者等元信息外),正文部分未經(jīng)過任何加工處理;BCC是熟語料庫,語料經(jīng)過分詞、詞性標注,少量語料庫還做了句法分析。所以,想查和詞性、句法結(jié)構(gòu)有關(guān)的,只能用BCC啦。(用CCL只能下載后自己再做加工處理、統(tǒng)計分析等等....)

4. CCL提供了豐富的,針對字符串的檢索功能,尤其是模式匹配,讓生語料庫也可以滿足多樣性的研究需求;BCC與CCL相比,提供了更加豐富的檢索功能。用CCL無法查詢的不妨試試BCC。

6. CCL可以下載所有檢索結(jié)果,這一點非常開放(結(jié)合左右最多顯示字數(shù),可以下載完整的檢索結(jié)果),BCC最多只能下載10000條結(jié)果(太摳門)!

7. CCL沒有提供統(tǒng)計功能,BCC提供了部分統(tǒng)計功能,尤其是非普通字符串檢索時,該功能尤為有用。(雖然CCL沒有提供統(tǒng)計功能,但是可以下載所有檢索結(jié)果呀,下載后自己統(tǒng)計、分析唄,這也剛好彌補了CCL沒有統(tǒng)計功能的不足。)

8. CCL沒有提供歷時檢索功能,BCC有,所有想做歷時分析、對比的,就只能選BCC啦。

9. 理念不同(純?nèi)鐐€人臆測,如有雷同,純屬巧合)。CCL:我不加工語料,我只提供原始材料,怎么加工處理、怎么統(tǒng)計分析,使用者自行解決。BCC:我不但有原始語料,我還盡量去滿足所有用戶的所有需求,能做的我都做。由此,CCL做的少,但不會犯錯;BCC做的多,但可能有潛在風險。

總結(jié):二者互補,根據(jù)實際需求而選擇最合適的!

========================================

小 賤:對不起,CCL真做不到啊!人家沒分詞有沒有標注詞類,咋個查法呢?

總結(jié)

以上是生活随笔為你收集整理的bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。