日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美 系列 12 - 余弦定理和新闻的分类

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之美 系列 12 - 余弦定理和新闻的分类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數學之美 系列 12 - 余弦定理和新聞的分類


余弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯系。具體說,新聞的分類很大程度上依靠余弦定理。

Google
的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們設計一個算法來算出任意兩篇新聞的相似性。為了做到這一點,我們需要想辦法用一組數字來描述一篇新聞。

如何度量網頁相關性TF/IDF /TF/IDF)TF/IDF TF/IDF


------------------
1

2

3
阿斗
4
阿姨
...
789
服裝
....
64000
做作

64,000 TF/IDF

TF/IDF
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075

64,000 64,000如果兩篇新聞的特征向量相近,則對應的新聞內容相似,它們應當歸在一類,反之亦然。

學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到余弦定理計算向量的夾角了。

a, b c A, B C A --

b c

b c X Y
x1,x2,...,x64000

y1,y2,...,y64000,
那么它們夾角的余弦等于,


當兩條新聞向量夾角的余弦等于一時,這兩條新聞完全重復(用這個辦法可以刪除重復的網頁);當夾角的余弦接近于一時,兩條新聞相似,從而可以歸成一類;夾角的余弦越小,兩條新聞越不相關。



我們在中學學習余弦定理時,恐怕很難想象它可以用來對新聞進行分類。在這里,我們再一次看到數學工具的用途。

轉自:http://googlechinablog.com/2006/07/12.html

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的数学之美 系列 12 - 余弦定理和新闻的分类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。