[搜索]波特词干(Porter Streamming)提取算法详解(2)
生活随笔
收集整理的這篇文章主要介紹了
[搜索]波特词干(Porter Streamming)提取算法详解(2)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
接[搜索]波特詞干(Porter Streamming)提取算法詳解(1),
http://blog.csdn.net/zhanghaiyang9999/article/details/41624007
條件也包含下面一些規則:
*S? -詞干以S結束 (同樣適用于其他字符).
*v* - 詞干包含一個元音.
*d? - 詞干以兩個相同輔音結束(如. -TT, -SS).
*o? - 詞干以cvc的形式結束, 但是第二個c(輔音)不是 W, X?或者Y (如 -WIL, -HOP).
這些條件可以用AND,OR和NOT來運算,如:
(m>1 and (*S or *T))
表示判斷詞干m>a并且以S或T結束。
再看看 下面的這一組規則
SSES -> SS
IES? -> I
SS?? -> SS
S??? ->
但是只有一個會被用到,就是最長匹配的那個,例如:
CARESSES會被替換成 CARESS ,因為SSES->SS是最長的匹配。
總結
以上是生活随笔為你收集整理的[搜索]波特词干(Porter Streamming)提取算法详解(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [搜索]波特词干(Porter Stre
- 下一篇: [搜索]一种分词方法的实现