python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析
英文論文標題:Semantic Analysis of TourismVocabulary Based on Similar Words Calculation
論文中譯標題:基于相似詞計算的旅游詞匯語義分析
來源:2019 International Conference onComputer Science, Communications and Big Data(CSCBD 2019)
作者:Hui PENG,Hong-yanPAN
編譯:鄭欣怡,孫靜正,劉博藝,數據挖掘組
摘要
旅游數據挖掘是從海量旅游數據中提取數據關系的過程。它可以發現隱藏在數據中的隱含知識和規則。旅游詞之間語義關系的發現是旅游數據挖掘的重要內容。介紹了自然語言處理領域中經典的相似詞計算模型skip-gram。skip-gram語法中不考慮詞性,因此當相似詞位于句子中時,模型無法準確識別它們。因此,我們提出了POS-skip-gram模型。利用該模型,結合藝龍和攜程的旅游數據,建立了旅游詞的語義關系圖。這個圖可以作為旅游數據挖掘的基礎。
核心內容
該研究為了挖掘應用領域中詞之間的語義關系用到了相似詞的計算,用到的方法是通過計算每個單詞與其他單詞的共現次數來計算單詞之間的相似度。隨著統計語料庫的豐富,這種方法可以獲得越來越好的結果,特別適合于網絡詞匯的擴展需求和詞間統計結果在特定領域的應用。在統計方法的基礎上,將詞轉換成一個向量,然后利用兩個向量之間的相似度來判斷兩個詞是否是同義詞。
介紹了自然語言處理領域中經典的相似詞計算模型skip-gram:
skip-gram是Word2Vec模型的一種。Word2vec是一類神經網絡模型,通過學習文本來用詞向量的方式表征詞的語義信息,即通過一個嵌入空間使得語義上相似的單詞在該空間內距離很近。
從直觀角度上來理解Word2Vec模型,cat這個單詞和kitten屬于語義上很相近的詞,而dog和kitten則不是那么相近,iphone這個單詞和kitten的語義就差的更遠了。通過對詞匯表中單詞進行這種數值表示方式的學習(也就是將單詞轉換為詞向量),能夠讓我們基于這樣的數值進行向量化的操作從而得到一些有趣的結論。比如說,如果我們對詞向量kitten、cat以及dog執行這樣的操作:kitten - cat + dog,那么最終得到的嵌入向量將與puppy這個詞向量十分相近。
Word2Vec模型中,主要有Skip-gram和CBOW兩種模型,從直觀上理解,Skip-Gram是給定input word來預測上下文。而CBOW是給定上下文,來預測input word。
skip-gram模型是基于當前單詞預測單詞n的上下文。N是決定上下文窗口大小的常數。該模型分為三層:輸入層、投影層和輸出層,其中輸入層為當前單詞,投影層生成單詞向量空間,輸出層為當前單詞的上下文詞匯。為了進一步提高相似詞的計算精度,給出了含有語法信息POS-skip-gram模型的結構。模型調整為輸入層、過濾層、詞性標注層、投影層和輸出層。
其中,過濾層過濾掉網絡語言中使用的符號,使輸入更加標準化。詞性標注層利用詞性標注集對詞性進行標注。詞性標記集將詞分為兩類:內容詞和虛詞。其中,內容詞包括名詞、動詞、形容詞、副詞、成語等詞語。虛詞包括介詞、連詞、感嘆詞、冠詞、數詞和量詞。名詞還包括人名、地名、類名、專有名詞等。解決了由于skip-gram語法中不考慮詞性,當相似詞位于句子中時,模型無法準確識別的問題。
Abstract
Tourism data mining is the process of abstracting data relations from a huge number of tourism data. It can discover the implicit knowledge and rules which hidden in data. The discovery of the semantic relation between tourism words is the important content in tourism data mining. The classical similar words calculation model skip-gram in natural language processing area is introduced in the paper. The part of speech is not considered in skip-gram so when the similar words located closely in a sentence the model cannot identify them accurately. So we provide the model of skip-gram with Chinese Part of Speech—POS-skip-gram. With the help of this model and the tourism data from elong and ctrip website, we have established the semantic relations map of tourism words. The map can be the basis of tourism data mining.
總結
以上是生活随笔為你收集整理的python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 房贷月供怎么算 房贷月供计算公式
- 下一篇: python函数的传递方式有哪些_Pyt