日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

利用百度的词法分析区分数据

發(fā)布時間:2025/4/5 编程问答 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用百度的词法分析区分数据 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.目標(biāo)

我以區(qū)分名人數(shù)據(jù)與非名人數(shù)據(jù)為例。何為名人數(shù)據(jù)、非名人數(shù)據(jù) ?

名人數(shù)據(jù):介紹某位名人的一段(一句)話,例如:Raj Babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《Bodyguard》等。
非名人數(shù)據(jù):不是介紹某位名人的一段(一句)話,例如:德國ABASAG一向致力於促進(jìn)“企業(yè)資源規(guī)劃系統(tǒng)”(ERP)在中國的發(fā)展。


2.詞法分析運用

2.1新建AipNlp

AipNlp是自然語言處理的Python SDK客戶端,為使用自然語言處理的開發(fā)人員提供了一系列的交互方法。

參考如下代碼新建一個AipNlp:

from aip import AipNlp""" 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

在上面代碼中,常量APP_ID在百度云控制臺中創(chuàng)建,常量API_KEY與SECRET_KEY是在創(chuàng)建完畢應(yīng)用后,系統(tǒng)分配給用戶的,均為字符串,用于標(biāo)識用戶,為訪問做簽名驗證,可在AI服務(wù)控制臺中的應(yīng)用列表中查看。

注意:如您以前是百度云的老用戶,其中API_KEY對應(yīng)百度云的“Access Key ID”,SECRET_KEY對應(yīng)百度云的“Access Key Secret”。

2.2配置AipNlp

如果用戶需要配置AipNlp的網(wǎng)絡(luò)請求參數(shù)(一般不需要配置),可以在構(gòu)造AipNlp之后調(diào)用接口設(shè)置參數(shù),目前只支持以下參數(shù):

接口說明
setConnectionTimeoutInMillis建立連接的超時時間(單位:毫秒)
setSocketTimeoutInMillis通過打開的連接傳輸數(shù)據(jù)的超時時間(單位:毫秒)

2.3接口說明

詞法分析接口向用戶提供分詞、詞性標(biāo)注、專名識別三大功能;能夠識別出文本串中的基本詞匯(分詞),對這些詞匯進(jìn)行重組、標(biāo)注組合后詞匯的詞性,并進(jìn)一步識別出命名實體。

text = "百度是一家高科技公司"""" 調(diào)用詞法分析 """ client.lexer(text);

詞法分析 請求參數(shù)詳情

參數(shù)名稱是否必選類型說明
textstring待分析文本(目前僅支持GBK編碼),長度不超過65536字節(jié)

詞法分析 返回數(shù)據(jù)參數(shù)詳情

參數(shù)名稱類型必需詳細(xì)說明
textstring原始單條請求文本
itemsarray(object)詞匯數(shù)組,每個元素對應(yīng)結(jié)果中的一個詞
+itemstring詞匯的字符串
+nestring命名實體類型,命名實體識別算法使用。詞性標(biāo)注算法中,此項為空串
+posstring詞性,詞性標(biāo)注算法使用。命名實體識別算法中,此項為空串
+byte_offsetint在text中的字節(jié)級offset(使用GBK編碼)
+byte_lengthint字節(jié)級length(使用GBK編碼)
+uristring鏈指到知識庫的URI,只對命名實體有效。對于非命名實體和鏈接不到知識庫的命名實體,此項為空串
+formalstring詞匯的標(biāo)準(zhǔn)化表達(dá),主要針對時間、數(shù)字單位,沒有歸一化表達(dá)的,此項為空串
+basic_wordsarray(string)基本詞成分
+loc_detailsarray(object)地址成分,非必需,僅對地址型命名實體有效,沒有地址成分的,此項為空數(shù)組。
++typestring成分類型,如省、市、區(qū)、縣
++byte_offsetint在item中的字節(jié)級offset(使用GBK編碼)
++byte_lengthint字節(jié)級length(使用GBK編碼)

詞法分析 返回示例

{"status":0,"version":"ver_1_0_1","results":[{"retcode":0,"text":"百度是一家高科技公司","items":[{"byte_length":4,"byte_offset":0,"formal":"","item":"百度","ne":"ORG","pos":"","uri":"","loc_details":[ ],"basic_words":["百度"]},{"byte_length":2,"byte_offset":4,"formal":"","item":"是","ne":"","pos":"v","uri":"","loc_details":[ ],"basic_words":["是"]},{"byte_length":4,"byte_offset":6,"formal":"","item":"一家","ne":"","pos":"m","uri":"","loc_details":[ ],"basic_words":["一","家"]},{"byte_length":6,"byte_offset":10,"formal":"","item":"高科技","ne":"","pos":"n","uri":"","loc_details":[ ],"basic_words":["高","科技"]},{"byte_length":4,"byte_offset":16,"formal":"","item":"公司","ne":"","pos":"n","uri":"","loc_details":[ ],"basic_words":["公司"]}]}] }

詞性縮略說明

詞性含義詞性含義詞性含義詞性含義
n普通名詞f方位名詞s處所名詞t時間名詞
nr人名ns地名nt機構(gòu)團體名nw作品名
nz其他專名v普通動詞vd動副詞vn名動詞
a形容詞ad副形詞an名形詞d副詞
m數(shù)量詞q量詞r代詞p介詞
c連詞u助詞xc其他虛詞w標(biāo)點符號

專名識別縮略詞含義

縮略詞含義縮略詞含義縮略詞含義縮略詞含義
PER人名LOC地名ORG機構(gòu)名TIME時間

3.具體代碼實現(xiàn)

百度提供的詞法分析會將句子進(jìn)行分詞,并進(jìn)行標(biāo)識。例如《迷宮下的罪惡2》、《天命玩家》會被標(biāo)識為作品名,Raj Babbar會標(biāo)識為人名。通過分析名人數(shù)據(jù)可知,名人數(shù)據(jù)中一般包含有人名、地名、作品名、出人日期,我把這些詞匯作為稱為名人數(shù)據(jù)的特征數(shù)據(jù),當(dāng)然名人數(shù)據(jù)中不光有特征數(shù)據(jù)還有像演員、主要、作品、有這樣的非特征數(shù)據(jù)。我依據(jù)名人數(shù)據(jù)特征數(shù)據(jù)在總數(shù)據(jù)(即整句)的占比來判定是否為名人數(shù)據(jù)。

首先創(chuàng)建一個AipNlp

from aip import AipNlp""" 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

然后創(chuàng)建倆個計數(shù)器,分別用來計量特征數(shù)據(jù)與非特征數(shù)據(jù)的個數(shù)

# 定義一個計數(shù)器,統(tǒng)計所有的單元數(shù) counter_all=0 # 定義一個計數(shù)器,統(tǒng)計所有的單元數(shù) counter_need=0

加載我們需要區(qū)分的數(shù)據(jù)

text = 'Raj Babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《Bodyguard》' jsonData = client.lexer(text)

統(tǒng)計特征數(shù)據(jù)與非特征數(shù)據(jù)的個數(shù),這部分代碼參照百度的詞法分析規(guī)則進(jìn)行編寫的,[‘items’][‘ne’][‘PER’,’LOC’,’ORG’,’TIME’][‘pos’][‘nw’,’nr’,’t’,’m’]等都是代名詞需要參照上面詞法分析規(guī)則。

for each in jsonData['items']:if each['ne'] in ['PER','LOC','ORG','TIME']:counter_need+=1elif each['pos'] in ['nw','nr','t','m']:counter_need+=1if each['pos'] in ['w']:passelse:counter_all+=1

最后打印名人特征數(shù)據(jù)占比,結(jié)果為

print('名人特征數(shù)據(jù)占比為:'+str(counter_need/counter_all)) >>>名人特征數(shù)據(jù)占比為:0.375

名人數(shù)據(jù)的特征數(shù)據(jù)占比在0.15以上基本就可以確認(rèn)為名人數(shù)據(jù)了,名人數(shù)據(jù)與非名人數(shù)據(jù)的實際分界線還要參照具體的語料庫。

總結(jié)

以上是生活随笔為你收集整理的利用百度的词法分析区分数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲人人人 | 国产精品老女人 | 国产精品.www | 小柔的裸露日记h | 日本加勒比在线 | 欧美日韩精品一区二区三区蜜桃 | 黄色大片免费看 | 嫩草av在线 | 国产露出视频 | 久久久精品国产sm调教 | 久久无毛 | 日韩av一区二区在线播放 | 91精品在线观看视频 | 日本大胆裸体做爰视频 | 色欲av无码精品一区 | wwwxxx色| 国产久精品| 无码人妻丰满熟妇区五十路百度 | 国产欧美日韩综合精品一区二区 | 激情视频在线观看免费 | 精品福利一区二区三区 | 特级西西人体444www高清 | 极品久久久 | 午夜视频在线看 | 中文字幕在线看高清电影 | 2019日韩中文字幕 | 无人在线观看的免费高清视频 | 岛国毛片在线观看 | 中文字幕有码在线视频 | 国产精品一线二线三线 | 成人xx视频 | 国产成人a亚洲精v品无码 | 日本成人网址 | 亚洲天堂免费av | 日韩av手机在线播放 | 精品一区二区三区在线视频 | 天天干天天草天天射 | 国产精品入口66mio | 又黄又爽的视频在线观看 | 久久国产一 | 自拍偷拍第一页 | 国产成人99久久亚洲综合精品 | 澳门一级黄色片 | 国产免费一区二区三区三州老师 | 亚洲精品推荐 | 日韩爽片 | 日日夜夜噜噜噜 | 中文在线第一页 | 神马久久久久久久久久久 | 免费在线黄网站 | 国产欧美亚洲精品 | 日韩免费a | 青青操av在线 | 在线观看黄色av | 国产精品成人3p一区二区三区 | 草久在线观看 | 国产最新视频在线 | 日本亚洲精品 | 免费黄网在线观看 | 我们的生活第五季在线观看免费 | 国产精品福利视频 | 人人爽人人射 | 亚洲精品传媒 | 国产精品18久久久 | 欧美精品久久久久久 | 成人在线毛片 | 午夜老司机福利 | 国产精品国产三级国产aⅴ无密码 | 欧美视频在线一区 | 成人区人妻精品一区 | 一区二区三区美女 | 青青草综合网 | 日韩欧美在线一区 | a级网站在线观看 | 天天爱夜夜爱 | 久久久xxx | 在线观看国产黄 | 国产热热 | 全部免费毛片在线播放一个 | 日韩在线视频一区二区三区 | 国产第一毛片 | 伊人久久中文 | av操操 | 亚洲国产aⅴ成人精品无吗 日韩乱论 | 亚州av成人 | 亚洲成人午夜电影 | 成人亚洲免费 | 亚洲欧美日本一区 | 免费看成人 | 不卡av电影在线 | 日本激情视频在线观看 | 国产精品夫妻 | 国产一卡二卡在线 | 熟女肥臀白浆大屁股一区二区 | 成人免费在线网址 | 四虎精品成人免费网站 | 韩国美女毛片 | 成人av高清在线观看 | av中文字幕在线播放 |