當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美（二）

發(fā)布時間：2023/12/19 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了数学之美（二）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

總第75篇

本篇為數(shù)學(xué)之美連載篇二，你還可以看：數(shù)學(xué)之美（一）

11|矩陣運算與文本處理：

無論是詞匯的聚類還是文本的分類，都可以通過線性代數(shù)中的奇異值分解來進行，這樣自然語言的處理問題就變成了數(shù)學(xué)問題。

我們在前面講過利用余弦定理去對新聞進行分類，這種方法需要對所有新聞做兩兩的計算，而且要進行很多次迭代，耗時會特別長，尤其是當(dāng)新聞的數(shù)量很大且詞表也很大的時候，所以我們就在想，有沒有一種辦法可以一次性把所有的新聞相關(guān)性計算出來。這種方法就是奇異值分解，簡稱SVD。

奇異值分解是將一個大矩陣分解成三個小矩陣相乘

其中這個大矩陣行表示文章，即每一篇對應(yīng)一篇文章，每一列對應(yīng)文章中的一個詞。三個小矩陣的第一個小矩陣是對詞進行分類的一個結(jié)果。他的每一行表示一個詞，每一列表示一個語義相近的詞類，這一行的每個非零元素表示這個詞在每個語義類中的重要性(或相關(guān)性)，數(shù)值越大越相關(guān)。
最后一個矩陣是對文本的分類結(jié)果，他的每一列對應(yīng)一篇文本，每一行對應(yīng)一個主題。
中間的矩陣表示詞的類和文章的類之間的相關(guān)性。

余弦分類和奇異值分類兩種方法的優(yōu)缺點:

奇異值分解的優(yōu)點是能夠快速得到結(jié)果，但是結(jié)果較為粗糙，適合于大規(guī)模文本的初分類。而余弦分類計算較慢，結(jié)果較為準確，在實際應(yīng)用中可以先進行奇異值分解得到粗分類結(jié)果，再利用向量余弦在粗分類的基礎(chǔ)上進行迭代。

12|信息指紋及其應(yīng)用:

信息指紋和人類指紋是一樣的道理，人與人之間是不存在相同指紋的，所以可以用指紋來辨別某個人。而每條信息(視頻、文字、音頻等內(nèi)容)也會有自己所特有的表征信息，這就是信息指紋。

信息指紋最常見的應(yīng)用就是反盜版，通過對比原創(chuàng)和非原創(chuàng)的信息指紋即可。

13|搜索引擎反作弊和搜索結(jié)果權(quán)威性:

搜索引擎的反作弊是因為有人針對搜索引擎作弊，而這些作弊的人看到了搜索引擎的排名，好的排名就可以獲得好的流量就可以獲得好的商業(yè)價值。在前面的章節(jié)說過，排名與網(wǎng)站的本身的質(zhì)量度(即指向這個網(wǎng)頁的其他網(wǎng)頁的次數(shù))有關(guān)。所以就有人抓住這個點，販賣鏈接，對質(zhì)量度進行干擾。而反作弊就是找到這些作弊的(噪聲)，然后把他們的這些虛假質(zhì)量度去掉，就是正常的排名情況。

搜索引擎的權(quán)威性
在前面的章節(jié)中我們有提到搜索引擎的相關(guān)性，就是指搜索詞與目標網(wǎng)頁的相關(guān)程度。而權(quán)威性是用來反應(yīng)目標網(wǎng)頁的可信程度，用權(quán)威度來衡量。

計算權(quán)威度的步驟:
1、對每一個網(wǎng)頁正文(包括標題)中的每一句進行句法分析，然后找到涉及主題的短語(比如吸煙有害健康)以及對信息來源(比如國際衛(wèi)生組織)的描述。
2、利用互信息，找到主題短語和信息源的相關(guān)性。
3、對主題短語進行聚合，把相同意思，不同表達方式的詞語進行整合，其實和新聞分類類似，把相同主題的聚集成一類。(比如吸煙的危害和煤焦油的危害)，采用矩陣運算即可。
4、對網(wǎng)站內(nèi)容進行聚合，有一些是與主題有關(guān)的，有一些是無關(guān)的。

14|邏輯回歸和搜索廣告：

邏輯回歸主要被用來預(yù)測用戶可能會點擊哪些廣告。就是我們常聽說的點擊率預(yù)測。預(yù)測的原理把用戶的一些信息(搜索詞，性別，地域，身份等信息)當(dāng)做回歸參數(shù)，然后去預(yù)測該用戶點擊哪種廣告的可能性較大，然后去顯示哪種廣告。

15|各個擊破算法：

對于一些計算量較大的問題，我們將其分解成若干小問題，單獨運行，最后進行合并即可,也就是所謂的分布式運算，對于這種算法現(xiàn)在已經(jīng)有現(xiàn)成的平臺-mapreduce。

總結(jié)

以上是生活随笔為你收集整理的数学之美（二）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。