基于神经网络模型的文本语义通顺度计算研究-全文复现(还没弄完)
該碩士學位論文分為兩個部分:
①基于依存句法分析的語義通順度計算方法
②基于神經網絡模型的語義通順度計算方法
本篇記錄摘抄了該論文的核心內容以及實驗復現的詳細步驟.
在N-gram模型下進行智能批改場景下的語義通順度計算,第一種評價指標是通過劃分語義通順度等級,然后計算作答中的N元組,得出與標答的相似度,并給整個句子打分。
Score=∑Count(N?gram)?c(式3.3)Score=\sum Count(N-gram)-c(式3.3)Score=∑Count(N?gram)?c(式3.3)
其中Count為N元組在標答中出現的次數,
c為作答句子的長度值,得分越高說明該句子在語義上更加通順。
第二種評價指標是計算通順度。假設句子W含有n個詞語,計算其N-gram概
率,然后對概率值取幾何平均數,即為該句子的通順度。其計算方式如公式3.4所
示。
Psmooc=Pg+Pmain??g+Pn+Pmain??n4(式3.4)P_{\mathrm{smooc}}=\frac{P_{g}+P_{\operatorname{main}-g}+P_{n}+P_{\operatorname{main}-n}}{4}(式3.4)Psmooc?=4Pg?+Pmain?g?+Pn?+Pmain?n??(式3.4)
從上式可以看出P(w)的值與句子的長度n無關,因此判斷任意長度句子的通順度,且通順度越大,句子越合理。
主流的依存分析方法:
| 狀態轉移法 | 根據每一步的訓練來搜索局部最優解,直到整個句子訓練完畢,可以根據中間得到的局部最優解對后續的訓練過程進行分析 |
| 圖方法 | 具有全局性,利用最大生成樹算法,直接訓練得到整個句子的依存關系,但是不會產生局部最優解,無法利用局部最優解對后續過程進行分析 |
這個論文的作者不知道post-Tags是指代詞性標注。
所以很多下標都寫成了past
下面已經糾正過來。
| CposC_{pos}Cpos? | 語料進行詞性標注后的結果 |
| CgC_gCg? | |
| Cg?postC_{g-post}Cg?post? | CgC_gCg?詞性標注后的結果 |
依存句法分析下的通順度計算公式如下:
Pc=countgcountT(式3.5)P_c=\frac{count_g}{count_T}(式3.5)Pc?=countT?countg??(式3.5)
CountRCount_RCountR?:語義正確匹配的詞語對個數
CountTCount_TCountT?:詞語對總數
3.2開始的章節內容如下:
| 3.2.1 | 依存句法分析與通順度 |
| 3.2.2 | 句子主干的依存句法分析 |
| 3.2.3 | 句子細節的依存句法分析 |
| 3.2.4 | 語法通順度計算 |
| 3.2.5 | 語義通順度計算 |
| 3.2.6 | 基于依存句法分析的通順度計算 |
需要注意:
"句子"和"句子主干"不是一個意思
"語法"和"語義"不是一個意思
下面我們來嘗試復現論文中的語義依存圖:
通過[1],我們得到
可以看到新版本的LTP與老版本的LTP結果略有區別
2句子主干的依存句法分析
依存句法分析下的通順度計算,首先對句子的主干作評判,提取句子主干的步驟:
第一步,找出句子中的關鍵詞;
第二步,在與關鍵詞相關的集合中找出有主謂關系
及并列關系的詞,這些詞與關鍵詞的集合就是整個句子的主語;
第三步,找出與整個句子的主語成定中關系的詞,共同構成主語;
第四步,找出與句子主語中的謂語有動賓關系的詞,最終按照語法結構連接起來就構成了句子的主干。
Psmooc=Pg+Pmain??g+Pn+Pmain??n4(式3.9)P_{\mathrm{smooc}}=\frac{P_{g}+P_{\operatorname{main}-g}+P_{n}+P_{\operatorname{main}-n}}{4}(式3.9)Psmooc?=4Pg?+Pmain?g?+Pn?+Pmain?n??(式3.9)
| PgP_gPg? | 整個句子的語法通順度 |
| Pmain?gP_{main-g}Pmain?g? | 句子主干的語法通順度 |
| PnP_nPn? | 整個句子的語義通順度 |
| Pmain?nP_{main-n}Pmain?n? | 句子主干的語義通順度 |
Reference:
[1]哈工大-語言技術平臺
總結
以上是生活随笔為你收集整理的基于神经网络模型的文本语义通顺度计算研究-全文复现(还没弄完)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 欢乐斗地主怎么买豆(欢乐祥和满神州)
- 下一篇: NoClassDefFoundError