日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析

發(fā)布時間:2023/12/19 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

英文論文標(biāo)題:Semantic Analysis of TourismVocabulary Based on Similar Words Calculation

論文中譯標(biāo)題:基于相似詞計(jì)算的旅游詞匯語義分析

來源:2019 International Conference onComputer Science, Communications and Big Data(CSCBD 2019)

作者:Hui PENG,Hong-yanPAN

編譯:鄭欣怡,孫靜正,劉博藝,數(shù)據(jù)挖掘組

摘要

旅游數(shù)據(jù)挖掘是從海量旅游數(shù)據(jù)中提取數(shù)據(jù)關(guān)系的過程。它可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的隱含知識和規(guī)則。旅游詞之間語義關(guān)系的發(fā)現(xiàn)是旅游數(shù)據(jù)挖掘的重要內(nèi)容。介紹了自然語言處理領(lǐng)域中經(jīng)典的相似詞計(jì)算模型skip-gram。skip-gram語法中不考慮詞性,因此當(dāng)相似詞位于句子中時,模型無法準(zhǔn)確識別它們。因此,我們提出了POS-skip-gram模型。利用該模型,結(jié)合藝龍和攜程的旅游數(shù)據(jù),建立了旅游詞的語義關(guān)系圖。這個圖可以作為旅游數(shù)據(jù)挖掘的基礎(chǔ)。

核心內(nèi)容

該研究為了挖掘應(yīng)用領(lǐng)域中詞之間的語義關(guān)系用到了相似詞的計(jì)算,用到的方法是通過計(jì)算每個單詞與其他單詞的共現(xiàn)次數(shù)來計(jì)算單詞之間的相似度。隨著統(tǒng)計(jì)語料庫的豐富,這種方法可以獲得越來越好的結(jié)果,特別適合于網(wǎng)絡(luò)詞匯的擴(kuò)展需求和詞間統(tǒng)計(jì)結(jié)果在特定領(lǐng)域的應(yīng)用。在統(tǒng)計(jì)方法的基礎(chǔ)上,將詞轉(zhuǎn)換成一個向量,然后利用兩個向量之間的相似度來判斷兩個詞是否是同義詞。

介紹了自然語言處理領(lǐng)域中經(jīng)典的相似詞計(jì)算模型skip-gram:

skip-gram是Word2Vec模型的一種。Word2vec是一類神經(jīng)網(wǎng)絡(luò)模型,通過學(xué)習(xí)文本來用詞向量的方式表征詞的語義信息,即通過一個嵌入空間使得語義上相似的單詞在該空間內(nèi)距離很近。

從直觀角度上來理解Word2Vec模型,cat這個單詞和kitten屬于語義上很相近的詞,而dog和kitten則不是那么相近,iphone這個單詞和kitten的語義就差的更遠(yuǎn)了。通過對詞匯表中單詞進(jìn)行這種數(shù)值表示方式的學(xué)習(xí)(也就是將單詞轉(zhuǎn)換為詞向量),能夠讓我們基于這樣的數(shù)值進(jìn)行向量化的操作從而得到一些有趣的結(jié)論。比如說,如果我們對詞向量kitten、cat以及dog執(zhí)行這樣的操作:kitten - cat + dog,那么最終得到的嵌入向量將與puppy這個詞向量十分相近。

Word2Vec模型中,主要有Skip-gram和CBOW兩種模型,從直觀上理解,Skip-Gram是給定input word來預(yù)測上下文。而CBOW是給定上下文,來預(yù)測input word。

skip-gram模型是基于當(dāng)前單詞預(yù)測單詞n的上下文。N是決定上下文窗口大小的常數(shù)。該模型分為三層:輸入層、投影層和輸出層,其中輸入層為當(dāng)前單詞,投影層生成單詞向量空間,輸出層為當(dāng)前單詞的上下文詞匯。為了進(jìn)一步提高相似詞的計(jì)算精度,給出了含有語法信息POS-skip-gram模型的結(jié)構(gòu)。模型調(diào)整為輸入層、過濾層、詞性標(biāo)注層、投影層和輸出層。

其中,過濾層過濾掉網(wǎng)絡(luò)語言中使用的符號,使輸入更加標(biāo)準(zhǔn)化。詞性標(biāo)注層利用詞性標(biāo)注集對詞性進(jìn)行標(biāo)注。詞性標(biāo)記集將詞分為兩類:內(nèi)容詞和虛詞。其中,內(nèi)容詞包括名詞、動詞、形容詞、副詞、成語等詞語。虛詞包括介詞、連詞、感嘆詞、冠詞、數(shù)詞和量詞。名詞還包括人名、地名、類名、專有名詞等。解決了由于skip-gram語法中不考慮詞性,當(dāng)相似詞位于句子中時,模型無法準(zhǔn)確識別的問題。

Abstract

Tourism data mining is the process of abstracting data relations from a huge number of tourism data. It can discover the implicit knowledge and rules which hidden in data. The discovery of the semantic relation between tourism words is the important content in tourism data mining. The classical similar words calculation model skip-gram in natural language processing area is introduced in the paper. The part of speech is not considered in skip-gram so when the similar words located closely in a sentence the model cannot identify them accurately. So we provide the model of skip-gram with Chinese Part of Speech—POS-skip-gram. With the help of this model and the tourism data from elong and ctrip website, we have established the semantic relations map of tourism words. The map can be the basis of tourism data mining.

總結(jié)

以上是生活随笔為你收集整理的python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。