词权重计算及应用
本文討論如何計算詞(有時候稱特征向量)權重和向量空間模型及其應用。本文的“文檔”是指查詢對象,它們可以使一條條單獨的記錄或者是一本書的各章,還可以是一個網頁,或者xml文件等。
1 歸一化
在討論詞權重和向量空間模型前需要先了解下歸一化的概念。歸一化(normailization)方法有兩種形式。第一種形式是把數變為(0,1)之間的小數,方便計算。第二種是把有量綱(量綱是指單位)表達式變為無量綱表達式,這樣歸一化后統一了單位,方便比較,而且歸一化后比較的數值才有意義。
總結
- 上一篇: 堆内存与栈内存的区别
- 下一篇: 为什么通常牛顿法比梯度下降法能更快的收敛