日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

發(fā)布時(shí)間:2024/7/5 编程问答 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

句子變換,是指根據(jù)給定中文句子,借助某種語言處理手段,擴(kuò)展出一定數(shù)據(jù)規(guī)模的中文句子集合,是一個(gè)從1到N的過程,目的在于解決搜索(查詢擴(kuò)展)、分類(樣本擴(kuò)充)、抽取(數(shù)據(jù)回標(biāo))、推薦與生成(關(guān)聯(lián)引導(dǎo))等多個(gè)工業(yè)級應(yīng)用任務(wù)。

我們發(fā)現(xiàn),在處理以上幾個(gè)任務(wù)的過程中,句子級別的操作,是以句子中的詞為基本單位來實(shí)現(xiàn)的,即以詞的更換、刪除,語序和組合規(guī)則的重組等操作為基本手段。

將詞的這種操作依據(jù)進(jìn)行有效整理和形式化,是一項(xiàng)重要的工作,我們在實(shí)際開發(fā)過程中,對該工作的成果進(jìn)一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,并將其中的部分?jǐn)?shù)據(jù)集開放至OpenKG,供大家下載使用。

本期內(nèi)容以開放的句子變換為主題,對常見的句子變換操作典型應(yīng)用場景、數(shù)據(jù)地平線開放的三大知識三元組概要,以及它們在實(shí)際句子變換中所能發(fā)揮的作用進(jìn)行介紹。

一、句子變換操作的典型應(yīng)用場景

句子變換在搜索(查詢擴(kuò)展)、分類(樣本擴(kuò)充)、抽取(數(shù)據(jù)回標(biāo))、推薦與生成(關(guān)聯(lián)引導(dǎo))等典型NLP傳統(tǒng)任務(wù)中均有應(yīng)用。具體體現(xiàn)在基于句子標(biāo)準(zhǔn)化的輿情文本聚合,基于句子擴(kuò)展的信息采集與推薦、基于句子變換的數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)等三個(gè)方面。

1、 基于句子標(biāo)準(zhǔn)化的輿情文本聚合

文本去重是輿情分析的一項(xiàng)重要任務(wù),解決的方法包括基于標(biāo)題的去重、基于文本全文的去重、基于文檔摘要的去重、基于標(biāo)題與文檔元數(shù)據(jù)的去重等多種途徑。

處理速度和計(jì)算復(fù)雜度是去重過程中需要考慮的兩個(gè)重要因素,尤其是在項(xiàng)目工期緊且需要大規(guī)模進(jìn)行文本去重時(shí),將特定文本進(jìn)行代表內(nèi)容的標(biāo)準(zhǔn)化和規(guī)范化處理成為了一個(gè)重要手段。


圖1-文本去重系統(tǒng)中的指紋架構(gòu)圖

內(nèi)容的標(biāo)準(zhǔn)化和規(guī)范化,指將一個(gè)來源內(nèi)容生成一個(gè)唯一的md5指紋,指紋的值取決于標(biāo)準(zhǔn)后的結(jié)果。一般而言,常規(guī)的操作包括對內(nèi)容進(jìn)行停用詞處理、短句語序統(tǒng)一重排等,也有進(jìn)一步地在此基礎(chǔ)上進(jìn)行文本的詞義標(biāo)準(zhǔn)化映射、句子縮寫、句子復(fù)寫、句子翻譯。此外,也有加入一些其他的信息,如文本的時(shí)間信息、作者信息等進(jìn)行標(biāo)準(zhǔn)化融合。

2、 基于句子擴(kuò)展的信息采集與推薦

定點(diǎn)搜索和采集同樣也是輿情處理過程中的兩個(gè)重要手段。定點(diǎn)搜索,指針對關(guān)鍵詞或關(guān)鍵詞組成的query進(jìn)行擴(kuò)展,是搜索和采集的前置操作:如監(jiān)控“營業(yè)收入下降”這一節(jié)點(diǎn)時(shí),考慮到目標(biāo)文檔中可能存在的表述不一致,需要需要進(jìn)行擴(kuò)展,形成“營收下跌”、“營收下降”、“經(jīng)營收入下降”等多個(gè)關(guān)鍵詞。


圖2-基于同義知識庫的句子擴(kuò)展

基于句子擴(kuò)展的關(guān)聯(lián)推薦也是一個(gè)重要的應(yīng)用。通過對原先給定的query,通過識別出其中的關(guān)鍵信息,借助外部知識庫,對關(guān)鍵信息集合中的元素進(jìn)行替換,如獲取抽象關(guān)系實(shí)體、同級關(guān)系(同屬一個(gè)抽象類)實(shí)體進(jìn)行替換,得到“美元貶值”擴(kuò)展成“人民幣貶值”和“貨幣貶值”等推薦結(jié)果。

3、 基于句子變換的數(shù)據(jù)擴(kuò)充與數(shù)據(jù)回標(biāo)

無論是分類任務(wù)還是抽取任務(wù),都存在著樣本不足、訓(xùn)練數(shù)據(jù)不夠的問題,為此,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)是兩個(gè)主要手段。其中,數(shù)據(jù)擴(kuò)充主要包括詞語替換和回譯等幾種方式。

詞語替換,指在不更改句子含義的情況下替換文本中出現(xiàn)的單詞,實(shí)現(xiàn)方式包括基于同義詞庫的替換 、基于詞嵌入替換、基于TF-IDF的單詞替換等,基于TF-IDF的單詞替換也常用于確定給定句子中需要替換的詞語成分;借助回譯進(jìn)行數(shù)據(jù)增強(qiáng)也是一種方案,即利用機(jī)器翻譯來釋義文本,將這個(gè)新句子用作原始文本的擴(kuò)充結(jié)果。


圖3-基于遠(yuǎn)程監(jiān)督思想的數(shù)據(jù)回標(biāo)

遠(yuǎn)程監(jiān)督思想下基于已有知識庫的數(shù)據(jù)回標(biāo)是獲取大規(guī)模標(biāo)注數(shù)據(jù)的重要方法,其要求在給定知識三元組的情況下,在非結(jié)構(gòu)化文本中進(jìn)行回查,假設(shè)同時(shí)出現(xiàn)兩個(gè)實(shí)體的句子潛在地存在著實(shí)體關(guān)系。不過,這一操作在實(shí)際的處理過程中噪聲會較大。因此,為了擴(kuò)大候選召回,可借助外部知識庫對兩個(gè)實(shí)體進(jìn)行擴(kuò)展,同時(shí)可以引入實(shí)體之間的關(guān)系標(biāo)記詞以及標(biāo)記詞的擴(kuò)展詞作為增設(shè)條件提高準(zhǔn)確率。

二、句子變換中的開放知識三元組

準(zhǔn)確而大規(guī)模的記錄詞語之間的同義、抽象、同義等關(guān)系的知識三元組,是完成以上三個(gè)應(yīng)用任務(wù)的堅(jiān)實(shí)基礎(chǔ),在OpenKG中,我們開源了積累的部分中文抽象知識、中文同義知識、中文簡稱三元組數(shù)據(jù)集,供大家下載使用。下面是對該數(shù)據(jù)集的介紹:

1、35萬中文抽象知識三元組

1)地址 :
http://www.openkg.cn/dataset/35


圖4-35萬中文抽象知識三元組詳情截圖

2)樣例與介紹

該數(shù)據(jù)集開放了高質(zhì)量的346,048條中文抽象知識三元組知識庫,來源于公開網(wǎng)絡(luò)文本抽象三元組挖掘、人工手工整理等多個(gè)渠道,覆蓋商品、行業(yè)、動作、性狀、名詞性實(shí)體等多種類型。樣例如下圖所示:

圖5-35萬中文抽象知識示例截圖

該知識庫可用于查詢擴(kuò)展、句子改寫、句子相似度計(jì)算、句子推薦等多個(gè)應(yīng)用場景。

2、 43萬中文同義知識三元組

1) 地址:
http://www.openkg.cn/dataset/sim-knowlege-triples

該數(shù)據(jù)集開放了43萬中文同義知識三元組,來源于公開數(shù)據(jù)文本同義詞挖掘、詞典整理與人工修正等多個(gè)渠道。樣例如下圖所示:

圖7-43萬中文同義知識示例截圖
該知識庫可用于同義詞擴(kuò)展相關(guān)應(yīng)用,如搜索擴(kuò)展查詢、句子相似度計(jì)算、數(shù)據(jù)增強(qiáng)等。

3、 13萬中文簡稱知識三元組

地址:http://www.openkg.cn/dataset/abbr-knowlege-triples

圖8-13萬中文簡稱知識詳情截圖

2) 介紹與樣例

該數(shù)據(jù)集開放了136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個(gè)領(lǐng)域,來自公開網(wǎng)絡(luò)文本簡稱抽取、人工整理等多個(gè)渠道。樣例如下圖所示:

圖9-13萬中文簡稱知識示例截圖

中文簡稱知識庫,可用于簡稱抽取評測、實(shí)體鏈接、搜索查詢擴(kuò)展、句子改寫等多個(gè)場景。

三、總結(jié)

句子級別的操作,是以句子中的詞為基本單位來實(shí)現(xiàn)的,即以詞的更換、刪除,語序和組合規(guī)則重組等操作為基本手段。將詞的這種操作依據(jù)進(jìn)行有效整理以及形式化,是一項(xiàng)重要的工作,我們將這種形式化的成果進(jìn)一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,并將其中的一部分?jǐn)?shù)據(jù)集開放至OpenKG:

346048條中文抽象知識三元組知識庫,可用于查詢擴(kuò)展、句子改寫、句子相似度計(jì)算、句子推薦等多個(gè)應(yīng)用場景;

43萬中文同義知識三元組,可用于同義詞擴(kuò)展相關(guān)應(yīng)用,如搜索擴(kuò)展查詢、句子相似度計(jì)算、數(shù)據(jù)增強(qiáng)等場景;

136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個(gè)領(lǐng)域,可用于簡稱抽取評測、實(shí)體鏈接、搜索查詢擴(kuò)展、句子改寫等多個(gè)場景。

底層知識三元組,能夠在句子變換中發(fā)揮重要作用,具體體現(xiàn)在基于句子標(biāo)準(zhǔn)化的輿情文本聚合,給予句子擴(kuò)展的信息采集與推薦、基于句子變換的數(shù)據(jù)擴(kuò)充和數(shù)據(jù)回標(biāo)等幾個(gè)方面。

我們認(rèn)為,底層知識庫是自然語言處理的堅(jiān)實(shí)基礎(chǔ),可在工業(yè)界各項(xiàng)算法的實(shí)施中發(fā)揮奠基性和落地性的支持。

參考鏈接
1、http://www.openkg.cn/organization/datahorizon
2、http://www.openkg.cn/dataset/35
3、http://www.openkg.cn/dataset/sim-knowlege-triples
4、http://www.openkg.cn/dataset/abbr-knowlege-triples
5、https://www.datahorizon.cn

總結(jié)

以上是生活随笔為你收集整理的助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。