数学之美 系列 12 - 余弦定理和新闻的分类
數學之美 系列 12 - 余弦定理和新聞的分類
余弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯系。具體說,新聞的分類很大程度上依靠余弦定理。
Google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們設計一個算法來算出任意兩篇新聞的相似性。為了做到這一點,我們需要想辦法用一組數字來描述一篇新聞。
“如何度量網頁相關性”TF/IDF /TF/IDF)TF/IDF TF/IDF
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服裝
....
64000 做作
64,000 TF/IDF
TF/IDF
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075
64,000 64,000如果兩篇新聞的特征向量相近,則對應的新聞內容相似,它們應當歸在一類,反之亦然。
學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到余弦定理計算向量的夾角了。
a, b c A, B C A --
b c
b c X Y
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它們夾角的余弦等于,
當兩條新聞向量夾角的余弦等于一時,這兩條新聞完全重復(用這個辦法可以刪除重復的網頁);當夾角的余弦接近于一時,兩條新聞相似,從而可以歸成一類;夾角的余弦越小,兩條新聞越不相關。
我們在中學學習余弦定理時,恐怕很難想象它可以用來對新聞進行分類。在這里,我們再一次看到數學工具的用途。
轉自:http://googlechinablog.com/2006/07/12.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的数学之美 系列 12 - 余弦定理和新闻的分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转载:介绍几本专业的书籍,一起学习
- 下一篇: 数学之美 系列十三 信息指纹及其应用