日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

肝了1W字!文本生成评价指标的进化与推翻

發布時間:2024/7/5 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 肝了1W字!文本生成评价指标的进化与推翻 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一只小狐貍帶你解鎖 煉丹術&NLP?秘籍

作者:林鎮坤(中山大學研一,對文本生成和貓感興趣)

前言

文本生成目前的一大瓶頸是如何客觀,準確的評價機器生成文本的質量。一個好的評價指標(或者設置合理的損失函數)不僅能夠高效的指導模型擬合數據分布,還能夠客觀的讓人評估文本生成模型的質量,從而進一步推動text generation 商業化能力。

然而由于語言天生的復雜性和目前技術限制,我們目前還沒有一個完美的評價指標。

本文就三方面對文本生成的評價指標介紹:

  • 介紹了以BLEU為代表的基于統計的文本評價指標

  • 就 data to text 和 image caption 進一步介紹了其特有的評價模式

  • 基于BERT等預訓練模型的文本評價指標

基于詞重疊率的方法

機器翻譯 & 摘要 常用指標

基于詞重疊率的方法是指基于詞匯的級別計算模型的生成文本和人工的參考文本之間的相似性,比較經典的代表有BLEU、METEOR和ROUGE,其中BLEU和METEOR常用于機器翻譯任務,ROUGE常用于自動文本摘要。

BLEU

BLEU (Bilingual Evaluation Understudy,雙語評估輔助工具)可以說是所有評價指標的鼻祖,它的核心思想是比較候選譯文和參考譯文里的 n-gram 的重合程度,重合程度越高就認為譯文質量越高。unigram用于衡量單詞翻譯的準確性,高階n-gram用于衡量句子翻譯的流暢性。實踐中,通常是取N=1~4,然后對進行加權平均。

  • BLEU 需要計算譯文 1-gram,2-gram,...,N-gram 的精確率,一般 N 設置為 4 即可,公式中的 Pn 指 n-gram 的精確率。

  • Wn 指 n-gram 的權重,一般設為均勻權重,即對于任意 n 都有 Wn = 1/N。

  • BP 是懲罰因子,如果譯文的長度小于最短的參考譯文,則 BP 小于 1。

  • BLEU 的 1-gram 精確率表示譯文忠于原文的程度,而其他 n-gram 表示翻譯的流暢程度。

不過BLEU對詞重復和短句有著非常不好的表現,所以改進的BLEU分別使用 改進的多元精度(n-gram precision)短句懲罰因子進行了優化。

1. 改進的多元精度(n-gram precision)

假設機器翻譯的譯文C和一個參考翻譯S1如下:

C: a cat is on the table
S1: there is a cat on the table

則可以計算出 1-gram,2-gram,... 的精確率(參考文獻里寫的是準確率(accuracy),我理解是寫錯了,此處應該是精確率(precision))

p1? 計算 a cat is on the table 分別都在參考翻譯S1中 所以 p1 = 1

p2? ?(a, cat)在, (cat is) 沒在,? (is on) 沒在, (on the) 在, (the table)在? 所以p2 = 3/5

p3? ?(a cat is)不在,? (cat is on)不在, (is on the)不在, (on the table)在? 所以 p3 = 1/4

依次類推(上面的在或者不在, 說的都是當前詞組有沒有在參考翻譯中)。直接這樣算, 會存在很大的問題. 例如:

C: there there there there there S1: there is a cat on the table

這時候機器翻譯的結果明顯是不正確的,但是其 1-gram 的 Precision 為1,因此 BLEU 一般會使用修正的方法。給定參考譯文S1,S2, ...,Sm,可以計算C里面 n 元組的 Precision,計算公式如下:

針對上面的例子 ?p1 = 1/5 ? (因為there在C和S1中都出現了 我們按最少的次數來)

2. 懲罰因子

上面介紹了 BLEU 計算 n-gram 精確率的方法, 但是仍然存在一些問題,當機器翻譯的長度比較短時,BLEU 得分也會比較高,但是這個翻譯是會損失很多信息的,例如:

C: a cat
S1: there is a cat on the table

因此需要在 BLEU 分數乘上懲罰因子

3. 優點

  • 它的易于計算且速度快,特別是與人工翻譯模型的輸出對比;

  • 它應用范圍廣泛,這可以讓你很輕松將模型與相同任務的基準作對比。

4. 缺點

  • 它不考慮語義,句子結構

  • 不能很好地處理形態豐富的語句(BLEU原文建議大家配備4條翻譯參考譯文)

  • BLEU 指標偏向于較短的翻譯結果(brevity penalty 沒有想象中那么強)

ROUGE

英文全稱Recall-Oriented Understudy for Gisting Evaluation,可以看做是BLEU 的改進版,專注于召回率而非精度。換句話說,它會查看有多少個參考譯句中的 n 元詞組出現在了輸出之中。

ROUGE大致分為四種(常用的是前兩種):

  • ROUGE-N (將BLEU的精確率優化為召回率)

  • ROUGE-L (將BLEU的n-gram優化為公共子序列)

  • ROUGE-W (將ROUGE-L的連續匹配給予更高的獎勵)

  • ROUGE-S ?(允許n-gram出現跳詞(skip))

ROUGE 用作機器翻譯評價指標的初衷是這樣的:在 SMT(統計機器翻譯)時代,機器翻譯效果稀爛,需要同時評價翻譯的準確度和流暢度;等到 NMT (神經網絡機器翻譯)出來以后,神經網絡腦補能力極強,翻譯出的結果都是通順的,但是有時候容易瞎翻譯。

ROUGE的出現很大程度上是為了解決NMT的漏翻問題(低召回率)。所以 ROUGE 只適合評價 NMT,而不適用于 SMT,因為它不管候選譯文流不流暢

1. ROUGE-N

“N”指的是N-gram,其計算方式與BLEU類似,只是BLEU基于精確率,而ROUGE基于召回率。

ROUGE-N 主要統計 N-gram 上的召回率,對于 N-gram,可以計算得到 ROUGE-N 分數,計算公式如下:公式的分母是統計在參考譯文中 N-gram 的個數,而分子是統計參考譯文與機器譯文共有的 N-gram 個數。

C: a cat is on the table
S1: there is a cat on the table

上面例子的 ROUGE-1 和 ROUGE-2 分數如下:

如果給定多個參考譯文 Si,Chin-Yew Lin 也給出了一種計算方法,假設有 M 個譯文 S1, ..., SM。ROUGE-N 會分別計算機器譯文和這些參考譯文的 ROUGE-N 分數,并取其最大值,公式如下。這個方法也可以用于 ROUGE-L,ROUGE-W 和 ROUGE-S。

2. ROUGE-L

ROUGE-L 中的 L 指最長公共子序列 (longest common subsequence, LCS),ROUGE-L 計算的時候使用了機器譯文C和參考譯文S的最長公共子序列,計算公式如下:

公式中的 RLCS 表示召回率,而 PLCS 表示精確率,FLCS 就是 ROUGE-L。一般 beta 會設置為很大的數,因此 FLCS 幾乎只考慮了 RLCS (即召回率)。注意這里 beta 大,則 F 會更加關注 R,而不是 P,可以看下面的公式。如果 beta 很大,則 PLCS 那一項可以忽略不計。

3. ROUGE-W

ROUGE-W 是 ROUGE-L 的改進版,考慮下面的例子,X表示參考譯文,而Y1,Y2表示兩種機器譯文。

在這個例子中,明顯 Y1的翻譯質量更高,因為 Y1 有更多連續匹配的翻譯。但是采用 ROUGE-L 計算得到的分數確實一樣的,即 ROUGE-L(X, Y1)=ROUGE-L(X, Y2)。? 因此作者提出了一種加權最長公共子序列方法 (WLCS),給連續翻譯正確的更高的分數,具體做法可以閱讀原論文《ROUGE: A Package for Automatic Evaluation of Summaries》

4. ROUGE-S

ROUGE-S 也是對 N-gram 進行統計,但是其采用的 N-gram 允許"跳詞 (Skip)",即跳躍二元組(skip bigram)。例如句子 "I have a cat" 的 Skip 2-gram 包括 (I, have),(I, a),(I, cat),(have, a),(have, cat),(a, cat)。

跳躍二元組是句子中有序的單詞對,和LCS類似,在單詞對之間,單詞可能被跳過。比如一句有4個單詞的句子,按照排列組合就可能有6種跳躍二元組。

再次使用精度和召回率來計算F,將句子Sij中跳躍二元組的個數記為

,則計算公式如下:

NIST

NIST(National Institute of standards and Technology)方法是在BLEU方法上的一種改進。

最主要的是引入了每個n-gram的信息量(information) 的概念。BLEU算法只是單純的將n-gram的數目加起來,而nist是在得到信息量累加起來再除以整個譯文的n-gram片段數目。這樣相當于對于一些出現少的重點的詞權重就給的大了。

信息量的計算公式是:

解釋一下:分母是n元詞在參考譯文中出現的次數,分子是對應的n-1元詞在參考譯文中的出現次數。對于一元詞匯,分子的取值就是整個參考譯文的長度。這里之所以這樣算,應該是考慮到出現次數少的就是重點詞這樣的一個思路。

計算信息量之后,就可以對每一個共現n元詞乘以它的信息量權重,再進行加權求平均得出最后的評分結果:

這里注意幾個地方:

1、N一般取5

2、β是一個常數,在Lsys/Lref=2/3 時,β使得長度罰分率為0.5,它是個經驗值,大概的曲線是:

3、Lref 是參考答案的平均長度(注意L的上方有一個平均符號)

4、Lsys是譯文的長度

參考鏈接:機器翻譯評測——BLEU改進后的NIST算法.博客還詳細介紹了如何使用nist去評測,感興趣的同學可以看看。

METEOR

和BLEU不同,METEOR同時考慮了基于整個語料庫上的準確率和召回率,而最終得出測度。

METEOR也包括其他指標沒有發現一些其他功能,如同義詞匹配等。METEOR用 WordNet 等知識源擴充了一下同義詞集,同時考慮了單詞的詞形(詞干相同的詞也認為是部分匹配的,也應該給予一定的獎勵,比如說把 likes 翻譯成了 like 總比翻譯成別的亂七八糟的詞要好吧?)

在評價句子流暢性的時候,用了 chunk 的概念(候選譯文和參考譯文能夠對齊的、空間排列上連續的單詞形成一個 chunk,這個對齊算法是一個有點復雜的啟發式 beam serach),chunk 的數目越少意味著每個 chunk 的平均長度越長,也就是說候選譯文和參考譯文的語序越一致。

最后,METEOR計算為對應最佳候選譯文和參考譯文之間的準確率和召回率的調和平均:

1. 理解

看公式總是挺抽象的,下面我們還是看看來自維基百科的例子吧。計算的最基本單元是句子。算法首先從待評價字符串和參考字符串之間創建一個平面圖如下:

所謂平面圖,就是1元組之間的映射集。平面圖有如下的一些限制:在待評價翻譯中的每個1元組必須映射到參考翻譯中的1個或0個一元組,然后根據這個定義創建平面圖。如果有兩個平面圖的映射數量相同,那么選擇映射交叉數目較少的那個。 也就是說,上面左側平面圖會被選擇。狀態會持續運行,在每個狀態下只會向平面圖加入那些在前一個狀態中尚未匹配的1元組。一旦最終的平面圖計算完畢,就開始計算METEOR得分:

1元組精度:

其中m是在參考句子中同樣存在的,待評價句子中的一元組的數量。wt是待評價翻譯中一元組的數量。

1元組召回率:

m同上,是參考翻譯中一元組的數量。

然后使用調和平均來計算F-mean,且召回的權重是精度的9(上面說的超參數α)倍。

到目前為止,這個方法只對單個單詞的一致性進行了衡量,還沒有用到為了評價流暢性的 chunk 。chunk 塊的定義是在待評價語句和參考語句中毗鄰的一元組集合。

在參考和待評價句子中的沒有毗連的映射越多,懲罰就越高。為了計算懲罰,1元組被分組成最少可能的塊(chunks)。在待評價語句和參考語句之間的毗鄰映射越長,塊的數量就越少。一個待評價翻譯如果和參考翻譯相同,那么就只有一個塊。懲罰p的計算如下:

(假設參數都已經設置好了)其中c就是塊的數量,Um是被映射的一元組的數量。p可以減少F-mean的值。最后:

2. 優點

  • 該方法基于一元組的精度和召回的調和平均,召回的權重比精度要高一點 , 與人類判斷相關性高

  • 引入了外部知識,評價更加友好了。

3. 缺點

  • 實現非常復雜,目前只有java版本

  • α、γ和θ 均為用于評價的默認參數。這些都是對著某個數據集調出來的(讓算法的結果和人的主觀評價盡可能一致,方法我記得是 grid search)。參數一多聽起來就不靠譜(給個眼神體會一下)

  • 需要有外部知識。如果很多詞不在wordnet,那其實就沒什么意義了

TER

TER 是 Translation Edit Rate 的縮寫,是一種基于距離的評價方法,用來評定機器翻譯結果的譯后編輯的工作量。

這里,距離被定義為將一個序列轉換成另一個序列所需要的最少編輯操作次數。操作次數越多,距離越大,序列之間的相似性越低;相反距離越小,表示一個句子越容易改寫成另一個句子,序列之間的相似性越高。

TER 使用的編輯操作包括:增加、刪除、替換和移位。其中增加、刪除、替換操作計算得到的距離被稱為編輯距離,并根據錯誤率的形式給出評分

其中 edit(c,r) 是指機器翻譯生成的候選譯文 c 和參考譯文 r 之間的距離,l 是歸一化因子,通常為參考譯文的長度。在距離計算中所有的操作的代價都為 1。在計算距離時,優先考慮移位操作,再計算編輯距離,也就是增加、刪除和替換操作的次數。直到移位操作(參考文獻中還有個增加操作,感覺是筆誤了)無法減少編輯距離時,將編輯距離和移位操作的次數累加得到TER 計算的距離。

Example 1.2 Candidate:cat is standing in the ground Reference:The cat is standing on the ground

將 Candidate 轉換為 Reference,需要進行一次增加操作,在句首增加 “The”;一次替換操作,將 “in” 替換為 “on”。所以 edit(c, r) = 2,歸一化因子 l 為 Reference 的長度 7,所以該參考譯文的 TER 錯誤率為 2/7。

與 BLEU 不同,基于距離的評價方法是一種典型的 “錯誤率” 的度量,類似的思想也廣泛應用于語音識別等領域。在機器翻譯中,除了 TER 外,還有 WER,PER 等十分相似的方法,只是在 “錯誤” 的定義上略有不同。需要注意的是,很多時候,研究者并不會單獨使用 BLEU 或者 TER,而是將兩種方法融合,比如,使用 BLEU 與TER 相減后的值作為評價指標。

data to text 常用指標

data to text 和翻譯、摘要等生成式任務最大的不同是,input是類似于table或者三元組等其他形式的數據。在評估生成結果時,我們還需要考慮文本是否準確的涵蓋了data的信息。

《Challenges in Data-to-Document Generation》提供了許多data to text 的評價指標,并且被后續的一些論文采用:

relation generation (RG)

Relation generation 指從生成的句子中抽取出關系,然后對比有多少關系也出現在了source中(一般有recall和count2個指標);

This measures how well the system is able to generate text containing factual (i.e., correct) records.

content selection (CS)

content selection 一般指data當中的內容有多少出現在了生成的句子中,一般有precision和recall兩個指標;

This measures how well the generated document matches the gold document in terms of selecting which records to generate.

content ordering (CO)

content ordering 使用歸一化 Damerau-Levenshtein距離計算生成句和參考句的“sequence of records(個人認為可以理解為item)”

This measures how well the system orders the records it chooses to discuss.

如何實現上述的評價指標

具體到某一個任務而言(這里以ROTOWIRE數據集,籃球比賽報道為例),ROTOWIRE數據以(entity , value , type),例如(MIAMI HEAT,95, POINTS)的形式出現。針對以下參考句:

The Atlanta Hawks defeated the Miami Heat , 103 - 95 , at Philips Arena on Wednesday .

首先抽取出現在文本當中的(實體-值)對(例如“邁阿密熱火”-95),然后預測該對的type值是什么(正確答案應該是POINTS)。作者提到,許多信息抽取系統都是通過這樣的方式把問題從多關系抽取簡化為多目標分類問題,以此train一個簡單的信息抽取的model。

若如此做,在test階段就擁有一個抽取+分類的model用以評估上述指標。作者指出,他們的model擁有90%的精確率和60%的召回率,這足以支持他們來評估自己生成句子的質量。

具體實現和代碼可以參照:https://github.com/harvardnlp/data2text

Coverage

如果你的data to text不涉及復雜的關系抽取,也可以簡單的通過匹配方法來驗證文本是否能夠覆蓋要描述的data。

This metric measures the average proportion of input items that are covered by a generated text. We recognized attribute values (ingredients) with string match heuristics.

Distinct

在某些生成場景中(對話,廣告文案)等,還需要追求文本的多樣性。李紀為的《A diversity-promoting objective function for neural conversation models》提出了Distinct指標,后續也被許多人采用。

Distinct的定義如下:

Count(unique ngram)表示回復中不重復的ngram數量,Count(word)表示回復中ngram詞語的總數量。

Distinct-n越大表示生成的多樣性越高。

image caption 常用指標

CIDEr

CIDEr 是專門設計出來用于圖像標注問題的。這個指標將每個句子都看作“文檔”,將其表示成 Term Frequency Inverse Document Frequency(tf-idf)向量的形式,通過對每個n元組進行(TF-IDF) 權重計算,計算參考 caption 與模型生成的 caption 的余弦相似度,來衡量圖像標注的一致性的。

  • 公式

  • 舉例

1. 好處

是一種加權的評價指標,他更關注你是否說到了重點,而常見的詞權重則沒有那么高。在 Kaustav_slides image caption的綜述里,也提到這個評價指標和人類的評價相關性更高一些。

SPICE

SPICE 也是專門設計出來用于 image caption 問題的。全稱是 Semantic Propositional Image Caption Evaluation。

我們考慮如下圖片:

你很快會發現盡管生成的句子與參考句極為相似(只有basketball一詞不一樣),但我們仍認為這是一個糟糕的生成。原因在于考慮了語義的情況下,模型把網球場錯誤的識別成了籃球場。這個時候BLEU或者其他指標就不能很好的評價生成效果了。

SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評價 caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規則的方法把 dependency tree 映射成 scene graphs。最后計算待評價的 caption 中 objects, attributes 和 relationships 的 F-score 值。

還是已上圖為例,a young girl standing on top of a tennis court (參考句) 可以被SPICE做如下處理:

得到了若干個三元組之后,我們通過下面的公式來計算候選句c和參考句(或集合)S的得分:

這里有一個例子:

1. 好處

  • 對目標,屬性,關系有更多的考慮;

  • 和基于n-gram的評價模式相比,有更高的和人類評價的相關性

2. 缺點

  • 不考慮語法問題

  • 依賴于semantic parsers , 但是他不總是對的

  • 每個目標,屬性,關系的權重都是一樣的(一幅畫的物體顯然有主次之分)

詞向量評價指標

上面的詞重疊評價指標基本上都是n-gram方式,去計算生成響應和真是響應之間的重合程度,共現程度等指標。而詞向量則是通過Word2Vec、Sent2Vec等方法將句子轉換為向量表示,這樣一個句子就被映射到一個低維空間,句向量在一定程度上表征了其含義,在通過余弦相似度等方法就可以計算兩個句子之間的相似程度。

使用詞向量的好處是,可以一定程度上增加答案的多樣性,因為這里大多采用詞語相似度進行表征,相比詞重疊中要求出現完全相同的詞語,限制降低了很多。

不過說句實話,至少在我讀過的paper里很少有人用(或者說只用)這種評價指標來衡量模型好壞的。作為知識拓展,這里也簡單介紹一下。

Greedy Matching

如上圖所示,對于真實響應的每個詞,尋找其在生成響應中相似度最高的詞,并將其余弦相似度相加并求平均。同樣再對生成響應再做一遍,并取二者的平均值。上面的相似度計算都是基于詞向量進行的,可以看出本方法主要關注兩句話之間最相似的那些詞語,即關鍵詞。

Embedding Average

這種方法直接使用句向量計算真實響應和生成響應之間的相似度,而句向量則是每個詞向量加權平均而來,如下圖所示。然后使用余弦相似度來計算兩個句向量之間的相似度。

Vector Extrema

跟上面的方法類似,也是先通過詞向量計算出句向量,在使用句向量之間的余弦相似度表示二者的相似度。不過句向量的計算方法略有不同,這里采用向量極值法進行計算。

基于語言模型的方法

PPL

它也可以用來比較兩個語言模型在預測樣本上的優劣。低困惑度的概率分布模型或概率模型能更好地預測樣本。(例如,給定一段人寫的文本,分別查看rnn和gpt-2的ppl分數如何)

注意,PPL指標是越低,代表語言模型的建模能力就越好

給測試集的句子賦予較高概率值的語言模型較好,當語言模型訓練完之后,測試集中的句子都是正常的句子,那么訓練好的模型就是在測試集上的概率越高越好,公式如下:(滑動查看完整公式)

所以當我們使用tf.contrib.seq2seq.sequence_loss()函數計算模型loss的時候,perplexity的計算就顯得很簡單了,直接對計算出來的loss取個指數就行了,命令如下所示:

train_perp = math.exp(float(mean_loss)) if mean_loss < 300else math.inf

基于bert的評分指標

基于N-gram重疊的度量標準只對詞匯變化敏感,不能識別句子語義或語法的變化。因此,它們被反復證明與人工評估差距較大。

近年來Bert為代表的的plm紅紅火火,于是有人提出使用句子上下文表示(bert全家桶)和人工設計的計算邏輯對句子相似度進行計算。這樣的評價指標魯棒性較好,在缺乏訓練數據的情況下也具有較好表現。

BERTSCORE

BERTSCORE: EVALUATING TEXT GENERATION WITH BERT , ICLR 2020

思路是非常簡單的:即對兩個生成句和參考句(word piece進行tokenize)分別用bert提取特征,然后對2個句子的每一個詞分別計算內積,可以得到一個相似性矩陣。基于這個矩陣,我們可以分別對參考句和生成句做一個最大相似性得分的累加然后歸一化,得到bertscore的precision,recall和F1:

流程如下圖所示:

1. Importance Weighting

還可以考慮給不同的詞以權重。作者使用idf函數,即給定M個參考句,詞w的idf為:

用此式更新上述評分,例如recall:

2. Baseline Rescaling

為了保證一個可讀性(即不好的生成值為0,好的生成值為1)需要做一個Rescaling。作者的做法是隨機的組合候選句和參考句(we create 1M candidate-reference pairs by grouping two random sentences.)從而計算一個b的平均值。b會被用于以下的式子:

若如此做,R_BERT會被映射到0和1(typically),precision和F1也可以做相似的操作。

3. 實驗設計

有大量豐富的實驗驗證魯棒性和有效性。(43頁的paper,模型只講了半頁)

拓展閱讀 :BLEURT

BLEURT: Learning Robust Metrics for Text Generation. ACL 2020

作者認為,可以通過預訓練結合人工評估數據的微調來同時滿足度量方法的魯棒性和表達度。基于該思路,提出了BLEURT,一種基于BERT的文本生成任務度量方法,通過對維基百科句子的隨機擾動,輔以一組詞匯級和語義級的監督信號來進行預訓練。

個人感覺主要和bertscore主要的區別在于:

  • bertscore本質上是只利用embedding計算內積,BLEURT本質上是finetune語義相似度任務,然后用來做評價指標。

取特殊標志[CLS]位置的向量作為句子表示,饋入一線性層,獲得相似度分數:

  • 在finetune以前,作者是通過遮蓋(BERT,spanBERT),回譯(en->fr->en),刪除(30%)等方法獲取擾亂句子集合,然后利用原本的句子集合和擾亂句子集合進行“模型預熱”。預熱的監督信息有:

  • 其他自動指標計算方法的結果(BLEU,ROUGE,BERTscore)

  • 回譯似然度

  • 三分類標簽,判斷原句和擾動句的文本關系,主要包括蘊含、矛盾、中立

  • 回譯標志,標注擾動句是否通過原句由回譯過程生成

  • 詳情請看 :《BLEURT:用于文本生成任務的魯棒指標》閱讀筆記 - Henretter的文章 - 知乎 https://zhuanlan.zhihu.com/p/129711609

    拓展閱讀 :MoverScore

    MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance.

    個人感覺主要和bertscore相比有2點創新:

    • 采用了推土機距離計算和參考句的相似程度,而不是單純的像bertscore只考慮最相似的詞的距離。這樣我覺得可以防止候選句的某一個詞過于強大(離所有參考句的word都很接近,結果代替了其他候選句的詞來表現)

    • 如何得到一個 word/n-gram 的向量表示,基于預訓練的模型來得到 contextualized 表示是一個開放性的問題,Elmo和BERT都是多層結構,不同的layer包含了不同的含義。作者這里提到了兩種方法,并最終采用了前者:

  • the concatenation of power means

  • a routing mechanism for aggregation

  • 具體可參考博客:https://panxiaoxie.cn/2019/10/31/%E4%BB%8E0%E5%BC%80%E5%A7%8BGAN-9-metric-for-NLG/

    總結

    • BLEU,ROUGE等評價指標依然是主流的評價方式

    • 從短句懲罰、重復、重要信息缺失、多樣化等方面,衍生出例如METEOR、SPICE、Distinct等評價指標

    • 以bertscore為代表的評價指標近年來受到廣泛的關注,與人工評價的相關性也越來越高

    本文收錄于原創專輯:《賣萌屋@自然語言處理》

    重磅驚喜:賣萌屋小可愛們苦心經營的?自然語言處理討論群?成立三群啦!掃描下方二維碼,后臺回復「入群」即可加入。眾多頂會審稿人、大廠研究員、知乎大V以及美麗小姐姐(劃掉?????♀?)等你來撩噢~(手慢無

    • ACL2020 | 基于Knowledge Embedding的多跳知識圖譜問答

    • ICLR2020滿分論文 | 為什么梯度裁剪能加速模型訓練?

    • 賣萌屋算法工程師思維導圖part3—深度學習篇

    • 萬能的BERT連文本糾錯也不放過

    • 面試必備!賣萌屋算法工程師思維導圖—統計機器學習篇

    夕小瑤的賣萌屋

    _

    關注&星標小夕,帶你解鎖AI秘籍

    訂閱號主頁下方「撩一下」有驚喜哦

    參考文獻

    [1] 文本生成任務評估指標 https://blog.csdn.net/linchuhai/article/details/90140555
    [2] 文本生成評價方法 BLEU ROUGE CIDEr SPICE Perplexity METEOR - 思婕的便攜席夢思的文章 - 知乎 https://zhuanlan.zhihu.com/p/108630305
    [3] NLP輸出文本評估:使用BLEU需要承擔哪些風險?https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/87835014
    [4] 機器翻譯自動評估-BLEU算法詳解 https://blog.csdn.net/qq_31584157/article/details/77709454
    [5] 機器翻譯, 文本生成等任務評價指標 BLEU, ROUGE, PPL(困惑度)https://blog.csdn.net/shawroad88/article/details/105639148
    [6] 現在基于深度學習的對話系統常用的評價指標有哪些,分別有什么優缺點和適用范圍?- 徐阿衡的回答 - 知乎 https://www.zhihu.com/question/264731577/answer/284806491
    [7] 【NLP】機器翻譯常用評價標準 (BLEU & METEOR) https://blog.csdn.net/Jkwwwwwwwwww/article/details/52846728
    [8] 看圖說話的AI小朋友——圖像標注趣談(上) - 杜客的文章 - 知乎 https://zhuanlan.zhihu.com/p/22408033
    [9] 深度學習對話系統理論篇--數據集和評價指標介紹 - 嗚嗚哈的文章 - 知乎 https://zhuanlan.zhihu.com/p/33088748
    [10] Anderson, Peter, et al. "Spice: Semantic propositional image caption evaluation." European Conference on Computer Vision. Springer, Cham, 2016.
    [11] Sam Wiseman, Stuart Shieber, and Alexander Rush.2017. Challenges in data-to-document generation.In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2253–2263. Association for Computational Linguistics.
    [12] https://opensource.niutrans.com/mtbook/p1-5.html
    [13] Wiseman, Sam, Stuart M. Shieber, and Alexander M. Rush. "Challenges in data-to-document generation." arXiv preprint arXiv:1707.08052 (2017).
    [14] Li, Jiwei, et al. "A diversity-promoting objective function for neural conversation models." arXiv preprint arXiv:1510.03055 (2015).
    [15] Zhang, Tianyi, et al. "Bertscore: Evaluating text generation with bert." arXiv preprint arXiv:1904.09675 (2019).
    [16] Sellam, Thibault, Dipanjan Das, and Ankur P. Parikh. "BLEURT: Learning Robust Metrics for Text Generation." arXiv preprint arXiv:2004.04696 (2020).
    [17] https://panxiaoxie.cn/2019/10/31/%E4%BB%8E0%E5%BC%80%E5%A7%8BGAN-9-metric-for-NLG/
    [18] 《BLEURT:用于文本生成任務的魯棒指標》閱讀筆記 - Henretter的文章 - 知乎 https://zhuanlan.zhihu.com/p/129711609

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的肝了1W字!文本生成评价指标的进化与推翻的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    中文字幕一区二区三区久久蜜桃 | 国产这里只有精品 | 久久草精品 | 国产精品理论片在线播放 | 最新极品jizzhd欧美 | 日本xxxx裸体xxxx17 | 日韩最新在线视频 | 国产一区二区中文字幕 | 日韩区欧美久久久无人区 | 99精品国产福利在线观看免费 | 久久www免费人成看片高清 | 日韩三级免费 | 国产午夜精品一区二区三区四区 | 国产午夜精品一区二区三区四区 | www91在线观看 | 国产一区二区网址 | 亚洲狠狠操 | 9999在线| 三级av免费 | 91av视频在线免费观看 | 狠狠狠色丁香综合久久天下网 | 国产精品成人一区二区三区吃奶 | 国产品久精国精产拍 | 五月婷婷激情综合网 | 成人a级黄色片 | 中文字幕 二区 | 欧美伦理一区二区 | 久草视频在线免费播放 | 日韩欧美在线视频一区二区三区 | 日韩网| 日韩成人在线一区二区 | 91精品国自产在线观看欧美 | 91亚洲网| 成人影视免费 | 久久久黄视频 | 91精品久久久久久久99蜜桃 | 中文字幕在线观看第三页 | 亚洲 欧美 精品 | 菠萝菠萝在线精品视频 | 亚洲精品成人av在线 | 亚洲理论影院 | 美女久久久久久 | 久久久久久免费视频 | av不卡免费在线观看 | 91在线视频在线观看 | av在线网站大全 | 亚洲精品国产精品国自 | 91av欧美 | 久久久黄视频 | 久久麻豆视频 | 97视频在线免费播放 | 五月婷婷.com | 毛片激情永久免费 | 欧美另类成人 | 最近中文字幕免费观看 | 99精品在线直播 | 91色网址| 中文字幕亚洲精品日韩 | 婷婷伊人网 | 国产在线a | 成人在线你懂得 | 亚洲91中文字幕无线码三区 | 就色干综合| 日韩高清免费在线观看 | 欧美一区二区视频97 | 爱爱av网 | 91亚洲精品久久久蜜桃 | 成人av影视观看 | 精品 一区 在线 | 国产一级在线播放 | 亚洲欧洲精品在线 | 99婷婷狠狠成为人免费视频 | 91精品在线免费视频 | 在线观看免费av片 | 久久人人爽人人片av | 91男人影院| 欧美精品天堂 | 婷婷丁香视频 | 日韩免费在线观看视频 | av福利第一导航 | 欧美激情视频在线免费观看 | 久久这里只有精品1 | 中文字幕在线影视资源 | 久久久久久久久影院 | 亚洲天天综合网 | 久草在线手机观看 | 日本成人a | 精品国产一区二区三区在线观看 | 最近中文字幕免费视频 | 在线中文字幕视频 | 制服丝袜欧美 | 久久婷婷国产色一区二区三区 | 91精品免费视频 | 国产在线看 | 久久久久电影 | 免费高清无人区完整版 | 久久国际影院 | 精品日本视频 | 久久理论影院 | 亚洲最大成人免费网站 | 欧美激精品| 尤物一区二区三区 | 国产专区一 | 97超碰人人澡人人爱 | 免费在线观看黄网站 | 亚洲国产资源 | 国产精品视频线看 | 99热这里只有精品1 av中文字幕日韩 | 99国产情侣在线播放 | 欧美亚洲国产日韩 | 亚洲理论在线观看电影 | 成人久久久久久久久 | 日本性生活一级片 | 成年人在线观看网站 | 国产精品一区二区三区在线免费观看 | 久久兔费看a级 | 最近中文字幕mv免费高清在线 | 中文字幕亚洲欧美日韩2019 | 丁香六月国产 | 丁香导航 | 日韩黄色av网站 | 国产国语在线 | 波多野结衣电影一区二区 | 在线不卡的av| 欧美经典久久 | 91亚洲国产 | 国产视频导航 | 国产亚洲资源 | 夜夜看av | 日韩黄色免费在线观看 | 国产伦理久久 | 国产精品爽爽久久久久久蜜臀 | 日韩精品久久久久久中文字幕8 | 久久久精品视频成人 | 天天操天天操天天操天天操天天操天天操 | 欧美一区三区四区 | 国内外成人在线 | 久久99精品久久久久蜜臀 | 五月激情在线 | 亚洲成人黄色在线 | 久久看视频 | 一级精品视频在线观看宜春院 | 久久久久久久久福利 | 亚洲精品videossex少妇 | 国产在线黄色 | 色婷婷福利 | 亚洲一级片在线观看 | 有码中文字幕在线观看 | 精品国产一区二区三区不卡 | 亚洲成av人片一区二区梦乃 | 日韩高清av | 成人午夜性影院 | 欧美怡红院 | 欧美日韩国产精品一区 | 国产精品毛片一区二区在线看 | 久久99九九99精品 | 天堂成人在线 | 日韩专区中文字幕 | 狠狠色综合欧美激情 | 国产精品久久久久一区二区 | 99婷婷狠狠成为人免费视频 | 亚洲另类视频在线观看 | 91久久国产精品 | 欧美成人精品欧美一级乱 | 在线日本v二区不卡 | 精产嫩模国品一二三区 | 色婷婷一区 | 国产一区二区手机在线观看 | 丁香电影小说免费视频观看 | 午夜丁香视频在线观看 | 免费观看一级特黄欧美大片 | 久久9999久久免费精品国产 | 日日夜夜天天久久 | 99久久精品午夜一区二区小说 | 成人国产精品入口 | 中文乱幕日产无线码1区 | 日本黄色免费大片 | 国产精品97| 免费在线观看亚洲视频 | 尤物九九久久国产精品的分类 | 91精品国产乱码久久桃 | 久福利| 91视频高清完整版 | 国产精品久久久久久久婷婷 | 久久久精品国产一区二区电影四季 | 欧美精品一级视频 | 免费色婷婷| 成人一级影视 | 99riav1国产精品视频 | 国内亚洲精品 | 国产97在线观看 | 久久久999| 久久精品一二三区白丝高潮 | 国产精品九九九九九九 | 97国产一区二区 | 日本mv大片欧洲mv大片 | 在线国产一区二区三区 | 91成人在线看 | 国产精品一区二区在线 | 色综合亚洲精品激情狠狠 | 在线观看国产日韩 | 91九色在线 | 国产成人综| 一二三精品视频 | 色婷婷成人网 | 激情小说网站亚洲综合网 | 欧美日韩高清在线 | 91视频在线播放视频 | 久久久www| 日本中文字幕网站 | 人人澡人人爱 | 韩国av在线播放 | 国产小视频你懂的 | 久久精品成人热国产成 | 日韩综合一区二区三区 | 免费在线黄网 | www色av| 国产精品一区在线观看你懂的 | 国产伦理精品一区二区 | 国产福利小视频在线 | 日韩在线国产 | 久久中文视频 | 狠狠综合久久 | 日韩精品一区二区三区三炮视频 | 91天堂在线观看 | 夜夜爽夜夜操 | 亚洲精品动漫在线 | 久久精品这里热有精品 | 国产精品毛片一区二区 | 国产精品入口传媒 | av线上免费观看 | 久久免费av电影 | 成人一区二区在线 | 97国产| 国产精品美女久久久久久2018 | 91免费版在线 | 在线国产一区二区 | 亚洲精品白浆高清久久久久久 | 国产99久久九九精品 | 六月丁香社区 | 91看片在线播放 | 91视频在线自拍 | 天天天色综合 | 亚洲日本色 | 欧美在线观看视频 | 一级片在线 | a级片在线播放 | 狠狠色丁香久久婷婷综合_中 | av性在线| 在线观看精品视频 | 日韩在线免费高清视频 | 久久久久女教师免费一区 | 91污在线观看 | 色综合在 | 亚洲专区视频在线观看 | 日韩视频精品在线 | 亚洲精品裸体 | 亚洲资源网| 中文在线www| 91精品久久久久久久91蜜桃 | 成人久久18免费网站 | 午夜久久福利影院 | 亚洲精品视频 | 91九色最新地址 | www久久久久 | 99久久精品国产一区二区成人 | 免费观看完整版无人区 | 视频二区在线 | 精品夜夜嗨av一区二区三区 | 日韩a在线观看 | 亚洲高清视频在线观看 | 婷婷av色综合 | 国产91精品一区二区麻豆亚洲 | 欧美在线视频免费 | 射射色| 国产美女免费看 | 97久久精品午夜一区二区 | 久久精品一二三 | av在线一 | 久久精品aaa | 丁香六月伊人 | 三级午夜片 | 九九涩涩av台湾日本热热 | 国产精品99久久久精品免费观看 | 国产中文欧美日韩在线 | 欧美久草网 | 日韩av午夜在线观看 | 久久久久日本精品一区二区三区 | 国产 中文 日韩 欧美 | 日韩久久精品一区二区三区下载 | 99情趣网视频 | 国产精品18久久久久久vr | 91精品秘密在线观看 | 久久久久亚洲精品中文字幕 | 91九色蝌蚪在线 | 狠狠干天天干 | 一区二区三区四区免费视频 | 色综合亚洲精品激情狠狠 | 成人免费视频网站在线观看 | 天天草天天干 | 一区二区三区在线观看中文字幕 | 五月婷婷丁香 | 久久人人97超碰com | www色,com| 又污又黄的网站 | 精品国产亚洲日本 | 午夜电影 电影 | 成年人免费观看在线视频 | 波多野结衣精品 | 狠狠色免费 | 日韩av电影一区 | 成人a视频在线观看 | 久久久久在线观看 | 91传媒在线观看 | 色美女在线 | 国产麻豆电影在线观看 | 国产+日韩欧美 | 狠狠躁夜夜av | 精品国产美女在线 | 久久99精品国产 | 亚洲aⅴ乱码精品成人区 | 婷婷精品在线 | 福利二区视频 | av中文天堂在线 | 精品成人国产 | 国产色视频一区二区三区qq号 | 2019精品手机国产品在线 | 欧美 国产 视频 | 欧美精品资源 | 国产一区二区三区在线 | 蜜桃麻豆www久久囤产精品 | 久久精品一区二区三区中文字幕 | 国产精品女同一区二区三区久久夜 | 久久精品综合网 | 精品国自产在线观看 | 香蕉视频亚洲 | 亚洲国产精品va在线看黑人 | 日本中文字幕免费观看 | 一区 在线 影院 | 亚洲成人网在线 | 国产va精品免费观看 | 99精品一区二区三区 | 国产精品午夜在线 | 在线观看黄 | 国产精品久久久久久久午夜片 | 97电影在线观看 | 怡红院av | 亚洲视频一区二区三区在线观看 | 日日夜夜av| a在线观看视频 | 在线导航av | 91理论片午午伦夜理片久久 | 综合激情网| 亚洲乱码精品久久久 | 992tv成人免费看片 | 久久久久一区二区三区 | 国产亚洲综合性久久久影院 | 99精品电影 | 精品字幕| 亚洲成av人片在线观看 | 成人毛片一区 | 啪一啪在线 | 欧美激情操 | 国产亚洲va综合人人澡精品 | 男女激情片在线观看 | 超碰成人免费电影 | 成人免费视频免费观看 | 在线免费黄色av | 国产精品一二三 | av九九九| 成年人电影免费在线观看 | 91精品国产自产在线观看永久 | 免费看的黄色 | 97超碰中文字幕 | 久久精品之 | 黄色视屏免费在线观看 | 99久久激情视频 | 二区三区在线视频 | 奇米影视777影音先锋 | 99精品视频中文字幕 | 日韩欧美在线综合网 | 精品免费观看 | 爱av在线网| 日韩中文字幕电影 | 国产亚洲午夜高清国产拍精品 | 国产午夜精品一区二区三区嫩草 | 91视频久久久久久 | 999成人网 | 黄色大片免费网站 | 人人射人人爽 | 久久综合福利 | av一级免费 | 亚洲电影一级黄 | 欧美国产日韩在线视频 | 中文字幕欧美三区 | 国产亚洲情侣一区二区无 | www.亚洲黄色| 一区免费观看 | 97福利在线 | 69av国产 | 日韩高清片 | www免费视频com | 2020天天干夜夜爽 | 一级黄色片在线免费看 | 欧美特一级 | 欧美日韩裸体免费视频 | 激情丁香综合五月 | 欧美成年人在线观看 | 欧美性生活小视频 | 成人中心免费视频 | 成人亚洲欧美 | 国产护士在线 | 西西大胆啪啪 | 国产精品扒开做爽爽的视频 | 亚洲国产经典视频 | 九九热在线观看 | 国产一级一片免费播放放a 一区二区三区国产欧美 | 国产精品综合av一区二区国产馆 | 日韩大片在线播放 | 亚洲视频免费在线 | 嫩草伊人久久精品少妇av | 国产成人精品一区二区三区在线观看 | 色吊丝av中文字幕 | 午夜视频亚洲 | 久久久久一区二区三区 | 9色在线视频 | av网址aaa | 伊人婷婷综合 | 久久久久久福利 | 日韩色爱| 久久国产成人午夜av影院潦草 | 狠狠狠干 | 婷婷六月综合网 | 国产在线中文 | 久草av在线播放 | 国产精品mm| 日本视频高清 | 日韩视| 国产一区二区手机在线观看 | 久草综合在线观看 | 久久精品1区2区 | 免费中文字幕视频 | 在线三级中文 | 国产成人亚洲在线观看 | 亚洲精品福利在线观看 | 国产精品女 | 国产丝袜在线 | 日韩在线国产精品 | 国产又粗又猛又爽 | 中文字幕在线久一本久 | 婷婷综合亚洲 | av丝袜在线 | 美女天天操 | 国产精品色 | 在线观看免费高清视频大全追剧 | 97视频网站| 91在线日本 | 超碰97免费观看 | 99视频在线观看视频 | 亚洲精品www | 日韩v在线91成人自拍 | 国语对白少妇爽91 | 天天爱天天射天天干天天 | 国产69精品久久app免费版 | 在线观看视频黄 | 欧美日韩高清一区二区 | 久草视频网 | 在线视频中文字幕一区 | 亚洲精品免费看 | 色综合 久久精品 | 天天综合导航 | 日韩精品一区二区三区免费观看 | 免费又黄又爽的视频 | 国产三级视频在线 | 欧洲亚洲激情 | 欧美亚洲免费在线一区 | 久久国产精品电影 | 国产美女在线观看 | 久久精品国产一区二区电影 | 久久99精品久久久久久三级 | 久久婷亚洲五月一区天天躁 | 天天操夜夜想 | 色综合久久中文字幕综合网 | 黄色小说网站在线 | 国产 在线 高清 精品 | 国产精品久久久久久久午夜 | 麻豆一精品传二传媒短视频 | 日韩中文字幕第一页 | 中文字幕色在线视频 | 国产资源精品在线观看 | 丁香资源影视免费观看 | 国内精品免费久久影院 | 日韩在线观看视频中文字幕 | 国产精品视频永久免费播放 | 亚洲精品天天 | 免费在线观看黄色网 | www亚洲精品| 欧美一区二区在线刺激视频 | 国产精品入口麻豆 | 国产在线精品国自产拍影院 | 久久精彩 | 国产一区在线视频播放 | 久草视频99| 国产日韩精品一区二区三区在线 | 成人黄色小说网 | 免费av网站在线 | 中文字幕人成乱码在线观看 | 一区二区视频在线免费观看 | 中文av在线播放 | 亚洲国产精品成人女人久久 | 综合久久网 | 精品国产一区二区三区四 | 午夜精品福利一区二区 | 日韩欧美区 | 中文字幕a∨在线乱码免费看 | 成人av地址| 91传媒视频在线观看 | 久久久久久久久久久久影院 | 四虎永久视频 | 综合网欧美 | 在线观看亚洲精品视频 | 精品国产视频在线 | 久久精品中文字幕免费mv | 成人亚洲欧美 | 国产美女主播精品一区二区三区 | 毛片在线网 | 色无五月 | 丁香婷婷色综合亚洲电影 | 在线免费观看黄网站 | 天天射天天干天天插 | 免费在线看v | 天天狠狠操| 制服丝袜在线91 | 国产精品久久久久久久7电影 | 新版资源中文在线观看 | 日韩v欧美v日本v亚洲v国产v | 欧美激情视频免费看 | 91精品福利在线 | free. 性欧美.com | 成人理论电影 | 日韩久久精品 | 国产精品久久久久毛片大屁完整版 | 国产高清99 | 欧美国产日韩久久 | 久久av影视| 久久99精品波多结衣一区 | 成人av片在线观看 | 久久久亚洲网站 | 久久久精品免费看 | 超碰成人av | 成人va视频 | 免费看的av片 | 久草成人在线 | 啪啪精品 | 亚洲伦理电影在线 | 国产精品美女视频 | 久草视频免费播放 | 午夜精品久久久久久久99 | 在线小视频国产 | 久久久久免费电影 | 久久成人国产精品 | 精品国产乱码久久久久 | 欧美日韩高清在线一区 | 91av在| 中文字幕在线观看一区二区 | 久久久www成人免费精品张筱雨 | 中文资源在线观看 | 日日日干 | 国产手机在线播放 | 日韩三区在线 | 久草在线资源观看 | 在线观看免费av网 | 日韩中文在线字幕 | 亚洲 中文 在线 精品 | 欧美日韩国产综合一区二区 | 国产一级特黄毛片在线毛片 | 天天摸天天干天天操天天射 | 欧洲亚洲精品 | 懂色av一区二区在线播放 | 97国产精品免费 | 美女久久精品 | 久草9视频 | 亚洲欧美在线视频免费 | 美女国内精品自产拍在线播放 | 亚洲天堂va | 国产视频色 | 在线有码中文字幕 | 国产一区高清在线观看 | 夜色成人av | 久草免费在线视频 | 日韩精品在线一区 | 夜夜爽88888免费视频4848 | 久久情侣偷拍 | 国产精品成人久久久 | 又黄又爽的视频在线观看网站 | 97理论片| 久久一线| 国产午夜一级毛片 | 激情av一区二区 | 中文字幕中文 | 国产中文字幕免费 | 成人影片在线免费观看 | 国产 日韩 欧美 自拍 | 亚洲视频观看 | 日日摸日日添日日躁av | 久久综合中文色婷婷 | 久久精品精品电影网 | 九九热久久久 | 日韩免费在线 | 91成人在线视频观看 | 黄色片视频在线观看 | 99视频国产精品 | 欧美一级专区免费大片 | 久久伦理电影 | 美女在线免费观看视频 | 欧美久久九九 | 亚洲天堂香蕉 | 亚洲精品99久久久久中文字幕 | 在线黄色av电影 | 成 人 黄 色 视频播放1 | 蜜臀av性久久久久av蜜臀三区 | 欧美日韩在线观看一区二区三区 | 日韩欧美高清一区二区三区 | 天天操夜夜摸 | 五月天久久 | 亚洲欧美成人综合 | 欧美性春潮 | 涩涩色亚洲一区 | 亚洲性少妇性猛交wwww乱大交 | 国产生活一级片 | 在线视频观看国产 | 91最新中文字幕 | 亚洲免费色 | 91传媒免费在线观看 | 成人欧美一区二区三区在线观看 | 视频 天天草 | 精品国产一区二区在线 | 免费三级黄色 | 青青河边草免费观看 | 九九热有精品 | 狠狠操夜夜操 | 亚洲日韩中文字幕在线播放 | 日韩免费看 | 91成人免费在线视频 | 国产一区二区网址 | 高清视频一区二区三区 | 狠狠干夜夜 | 看片的网址| 免费看的黄色网 | 插综合网| 成人网页在线免费观看 | 亚洲第一av在线播放 | 超碰在线97观看 | 色综合久久久久综合体桃花网 | 免费a视频在线 | 国产一级片在线播放 | 久久国产热 | 特级a老妇做爰全过程 | 在线观看91视频 | 久久久久久国产精品久久 | 国产又粗又猛又爽又黄的视频先 | 97超碰免费在线观看 | 在线观看亚洲精品视频 | 成人在线免费小视频 | 91看国产| www.在线观看视频 | 最新中文字幕在线播放 | 丁香婷婷综合色啪 | 国产精品久久久久久久久久直播 | 91人人澡人人爽 | 91中文字幕在线播放 | 久久久久久网站 | 97超碰在线视 | 午夜精品福利影院 | 91.dizhi永久地址最新 | 麻豆视频免费在线播放 | 国产伦理精品一区二区 | 久久久精品国产一区二区电影四季 | 在线观看成人av | 日本韩国精品一区二区在线观看 | 成人午夜精品 | 中文字幕第一页在线播放 | 中文字幕在线观看亚洲 | 香蕉影院在线观看 | 九九久久久久99精品 | 香蕉影视在线观看 | 91欧美精品 | 日韩精品第一区 | 亚洲黄色片一级 | 日韩91av | 亚洲欧洲国产精品 | 99r精品视频在线观看 | 久久视频一区二区 | 欧美激情在线网站 | 亚洲欧美久久 | 中文字幕日韩有码 | 狠狠操天天干 | 美女黄频视频大全 | 久久9999久久免费精品国产 | 国产精品久久久一区二区三区网站 | 久久久久久久久久久免费av | 999热视频 | 国产一级91 | 97视频播放 | 欧美一级久久久 | 狠狠干狠狠操 | 久草精品视频在线播放 | 国产精品入口麻豆 | 色综合天天视频在线观看 | 97夜夜澡人人双人人人喊 | 2019中文| 国产精品久久久久久久久久三级 | 国产免费资源 | www.国产在线 | 久久精品欧美 | 中文字幕丝袜一区二区 | 天天操天天操天天操天天操天天操 | 国产群p视频 | 精品国产123 | 久久乐九色婷婷综合色狠狠182 | 国产1区在线观看 | 伊人电影在线观看 | 久久久精品 一区二区三区 国产99视频在线观看 | 亚洲香蕉视频 | 免费在线观看的av网站 | 一区二区三区四区在线免费观看 | 日韩综合在线观看 | 99精品视频中文字幕 | 在线观看日韩免费视频 | 亚洲经典在线 | 在线观看视频免费播放 | 成人免费视频a | 免费久久精品视频 | 草久草久 | 久久久久伊人 | 99久久er热在这里只有精品66 | 天天干,天天插 | 免费看黄在线 | 日韩av高潮 | 97精品久久 | 亚洲黄a| 日韩国产欧美在线播放 | 国产精品美女久久久久久久久 | 成人av高清在线观看 | 欧美小视频在线观看 | 热久久这里只有精品 | av免费电影网站 | 精品国产一区二 | 久久精品首页 | 国产精品网红直播 | 日本xxxxav| 天堂资源在线观看视频 | 成年人视频在线免费播放 | 婷婷av电影| 香蕉91视频| 国产精品久久久免费 | 日韩欧美在线播放 | 亚洲国产三级 | 日日夜夜亚洲 | 国产夫妻性生活自拍 | 99久热在线精品视频成人一区 | 97成人在线 | 黄色www免费| 东方av在 | 蜜桃视频精品 | 久草久热| 一区二区欧美在线观看 | 丰满少妇在线观看 | 在线观看视频97 | 成人毛片一区二区三区 | 亚洲专区免费观看 | 天天插日日插 | 一区二区 久久 | 久久精品视频国产 | 午夜精品久久久久久久99婷婷 | 少妇bbbb搡bbbb桶 | 成人av视屏 | 欧美色综合天天久久综合精品 | 99精品国产兔费观看久久99 | 国产一级久久 | 丰满少妇在线观看资源站 | 中文字幕一区二区三区四区在线视频 | 4hu视频| 国产精品国产三级国产专区53 | 九草视频在线观看 | 国产精品自产拍在线观看网站 | 欧美一级黄大片 | 国产精品久久久区三区天天噜 | 一区二区精品视频 | 四虎永久视频 | 99视频国产精品 | 一级免费片 | 美女福利视频 | 精品一区二区精品 | 午夜婷婷在线观看 | 在线高清av | 欧美一二区视频 | 国产成人三级在线 | 精品国产视频在线 | 日精品在线观看 | 久久国产成人午夜av影院宅 | 久久综合色播五月 | 免费在线视频一区二区 | 国产精品久久久久久久久久久久午 | 中文字幕av在线不卡 | av免费在线免费观看 | 久久免费视频国产 | 亚洲视频在线播放 | 99久久超碰中文字幕伊人 | 成人91免费视频 | 婷婷久操 | 狠狠狠色狠狠色综合 | www.com黄| 成人a视频片观看免费 | 国产免费观看视频 | 91精品国自产在线观看欧美 | 国产精品久久久久久久午夜 | 99国产精品 | 国产精品久久久久久久久久久久午夜 | 99久久精品久久亚洲精品 | 狠狠操导航 | 久久中文欧美 | 久久久久久久国产精品视频 | 贫乳av女优大全 | 日韩高清二区 | 免费网站在线观看成人 | 中文字幕有码在线 | 在线成人性视频 | 亚洲欧美日韩精品久久久 | 亚洲激情一区二区三区 | 国产成人99久久亚洲综合精品 | 免费在线激情视频 | 亚洲乱码在线观看 | 中文字幕视频网站 | 婷婷久久精品 | 国产成人av电影在线 | 国产精品一区二区精品视频免费看 | 91视频 - 88av | 国内精品久久久久久中文字幕 | 午夜精品久久久久久久久久久久 | 91久久丝袜国产露脸动漫 | 草久在线 | 国产麻豆视频 | 国产黄色a| 日韩在线小视频 | 久草成人在线 | 91精品国自产在线观看 | 欧美久久久影院 | 91最新在线 | 深夜男人影院 | 天天干天天操天天射 | 日韩二三区 | 国产午夜精品一区二区三区嫩草 | 激情五月综合网 | 国产精品免费观看视频 | 娇妻呻吟一区二区三区 | 成年人免费在线看 | 欧美激情精品久久久久久免费印度 | 久久久麻豆精品一区二区 | 视频国产精品 | 日韩在线观看a | 成年美女黄网站色大片免费看 | 国产精品久久99精品毛片三a | 日韩在线三区 | 永久免费av在线播放 | 日韩免费一区二区 | 色婷婷九月 | 久久久久久免费视频 | 黄色在线观看污 | 欧美激情第一区 | 欧美一级性生活视频 | 久久只精品99品免费久23小说 | 国产精品网在线观看 | 人人干97 | wwwwwww色| 日韩免费电影网 | 国产精品第一页在线 | 国产精品美女视频网站 | 亚洲三级在线 | 91女神的呻吟细腰翘臀美女 | 免费看wwwwwwwwwww的视频 久久久久久99精品 91中文字幕视频 | 日本性xxxxx 亚洲精品午夜久久久 | 精油按摩av | 免费黄色网止 | 日韩久久久 | 九九热在线视频免费观看 | 99久久精品久久久久久动态片 | 一级精品视频在线观看宜春院 | 亚洲黄色网络 | 久久艹中文字幕 | 久久精品国亚洲 | 国产专区在线看 | 国产精品久久久久久久久免费 | 97免费在线观看视频 | 在线免费观看国产 | 丁香五婷 | 久久久99精品免费观看乱色 | 亚洲国产wwwccc36天堂 | 国产系列在线观看 | 日韩精品一区二区三区免费观看 | 麻豆播放 | 97在线视频免费看 | 久草在线视频新 | 国产在线1区| 中文区中文字幕免费看 | 日韩最新中文字幕 | 成人av免费在线播放 | av超碰免费在线 | 亚洲免费精品一区二区 | 国产精品国产三级国产不产一地 | 成人免费电影 | 成年人在线观看视频免费 | 免费成人av电影 | 国产一级做a | 亚洲乱码在线 | 热re99久久精品国产99热 | 国产午夜精品久久久久久久久久 | 精品视频成人 | 超碰免费久久 | 国产黄a三级三级三级三级三级 | 国产免费激情久久 | 一区中文字幕在线观看 | 国产精品久久久久久爽爽爽 | 在线一二区 | 国产黑丝一区二区 | 国产精品18久久久 | 日本精品视频在线 | 黄色三级久久 | 日韩有码网站 | 丁香婷婷色 | 日韩一级电影网站 | 久久精品中文字幕免费mv | 欧美日韩视频在线观看一区二区 | 自拍超碰在线 | 久久国产精品精品国产色婷婷 | 国产精品理论片 | 久久久色 | 欧美一级片 | 九九九九热精品免费视频点播观看 | 日韩精品中文字幕在线 | 成人一区二区在线 | 黄色成人在线网站 | 午夜久久久久久久久久久 | 黄色av一级| 久久dvd| 国产高清av免费在线观看 | 欧美男同网站 | 99久久99久久精品免费 | 亚洲欧美少妇 | 99成人精品 | 亚洲精品免费在线播放 | 91精品无人成人www | 欧美,日韩 | 国产一级久久 | 成年人在线观看网站 | 色永久免费视频 | 69国产盗摄一区二区三区五区 | 黄色中文字幕在线 | 国产一区二区在线免费播放 | 欧美精品被| 国产精品资源在线观看 | 欧美激情视频一区 | 国产精品久久久99 | 色视频在线免费 | 少妇bbbb搡bbbb桶 | 久久亚洲综合色 | 久久国产美女视频 | 夜夜爽88888免费视频4848 | 玖玖色在线观看 | 中文在线亚洲 | 久久久久久久久久免费 | 日韩久久久久久久久久 | 国产精品一区二区无线 | 97超碰在线免费观看 | 91视频首页 | av夜夜操| 青青草国产免费 | 亚洲成人在线免费 | 在线中文字幕视频 | 久草.com| 色小说av| 久久天堂影院 | 国产一区网 | 成人app在线免费观看 | 婷婷亚洲五月色综合 | 国产精品观看视频 | 成人一级视频在线观看 | 日本精品久久久久影院 | 国产最新精品视频 | 久草在线视频首页 | 在线观看中文av | 在线成人中文字幕 | 久久久精品国产一区二区电影四季 | 久久久久久久久久久久久久av | 久久久久日本精品一区二区三区 | av导航福利| 久久乱码卡一卡2卡三卡四 五月婷婷久 | 成人久久视频 |