数学之美(二)
總第75篇
本篇為數(shù)學(xué)之美連載篇二,你還可以看:數(shù)學(xué)之美(一)
11|矩陣運算與文本處理:
無論是詞匯的聚類還是文本的分類,都可以通過線性代數(shù)中的奇異值分解來進行,這樣自然語言的處理問題就變成了數(shù)學(xué)問題。
我們在前面講過利用余弦定理去對新聞進行分類,這種方法需要對所有新聞做兩兩的計算,而且要進行很多次迭代,耗時會特別長,尤其是當(dāng)新聞的數(shù)量很大且詞表也很大的時候,所以我們就在想,有沒有一種辦法可以一次性把所有的新聞相關(guān)性計算出來。這種方法就是奇異值分解,簡稱SVD。
奇異值分解是將一個大矩陣分解成三個小矩陣相乘
其中這個大矩陣行表示文章,即每一篇對應(yīng)一篇文章,每一列對應(yīng)文章中的一個詞。三個小矩陣的第一個小矩陣是對詞進行分類的一個結(jié)果。他的每一行表示一個詞,每一列表示一個語義相近的詞類,這一行的每個非零元素表示這個詞在每個語義類中的重要性(或相關(guān)性),數(shù)值越大越相關(guān)。
最后一個矩陣是對文本的分類結(jié)果,他的每一列對應(yīng)一篇文本,每一行對應(yīng)一個主題。
中間的矩陣表示詞的類和文章的類之間的相關(guān)性。
余弦分類和奇異值分類兩種方法的優(yōu)缺點:
奇異值分解的優(yōu)點是能夠快速得到結(jié)果,但是結(jié)果較為粗糙,適合于大規(guī)模文本的初分類。而余弦分類計算較慢,結(jié)果較為準確,在實際應(yīng)用中可以先進行奇異值分解得到粗分類結(jié)果,再利用向量余弦在粗分類的基礎(chǔ)上進行迭代。
12|信息指紋及其應(yīng)用:
信息指紋和人類指紋是一樣的道理,人與人之間是不存在相同指紋的,所以可以用指紋來辨別某個人。而每條信息(視頻、文字、音頻等內(nèi)容)也會有自己所特有的表征信息,這就是信息指紋。
信息指紋最常見的應(yīng)用就是反盜版,通過對比原創(chuàng)和非原創(chuàng)的信息指紋即可。
13|搜索引擎反作弊和搜索結(jié)果權(quán)威性:
搜索引擎的反作弊是因為有人針對搜索引擎作弊,而這些作弊的人看到了搜索引擎的排名,好的排名就可以獲得好的流量就可以獲得好的商業(yè)價值。在前面的章節(jié)說過,排名與網(wǎng)站的本身的質(zhì)量度(即指向這個網(wǎng)頁的其他網(wǎng)頁的次數(shù))有關(guān)。所以就有人抓住這個點,販賣鏈接,對質(zhì)量度進行干擾。而反作弊就是找到這些作弊的(噪聲),然后把他們的這些虛假質(zhì)量度去掉,就是正常的排名情況。
搜索引擎的權(quán)威性
在前面的章節(jié)中我們有提到搜索引擎的相關(guān)性,就是指搜索詞與目標網(wǎng)頁的相關(guān)程度。而權(quán)威性是用來反應(yīng)目標網(wǎng)頁的可信程度,用權(quán)威度來衡量。
計算權(quán)威度的步驟:
1、對每一個網(wǎng)頁正文(包括標題)中的每一句進行句法分析,然后找到涉及主題的短語(比如吸煙有害健康)以及對信息來源(比如國際衛(wèi)生組織)的描述。
2、利用互信息,找到主題短語和信息源的相關(guān)性。
3、對主題短語進行聚合,把相同意思,不同表達方式的詞語進行整合,其實和新聞分類類似,把相同主題的聚集成一類。(比如吸煙的危害和煤焦油的危害),采用矩陣運算即可。
4、對網(wǎng)站內(nèi)容進行聚合,有一些是與主題有關(guān)的,有一些是無關(guān)的。
14|邏輯回歸和搜索廣告:
邏輯回歸主要被用來預(yù)測用戶可能會點擊哪些廣告。就是我們常聽說的點擊率預(yù)測。預(yù)測的原理把用戶的一些信息(搜索詞,性別,地域,身份等信息)當(dāng)做回歸參數(shù),然后去預(yù)測該用戶點擊哪種廣告的可能性較大,然后去顯示哪種廣告。
15|各個擊破算法:
對于一些計算量較大的問題,我們將其分解成若干小問題,單獨運行,最后進行合并即可,也就是所謂的分布式運算,對于這種算法現(xiàn)在已經(jīng)有現(xiàn)成的平臺-mapreduce。
總結(jié)
- 上一篇: “好吃才是王道”
- 下一篇: 最懒惰的算法—KNN