日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美(二)

發布時間:2023/12/19 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之美(二) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第75篇


本篇為數學之美連載篇二,你還可以看:數學之美(一)

11|矩陣運算與文本處理:

無論是詞匯的聚類還是文本的分類,都可以通過線性代數中的奇異值分解來進行,這樣自然語言的處理問題就變成了數學問題。

我們在前面講過利用余弦定理去對新聞進行分類,這種方法需要對所有新聞做兩兩的計算,而且要進行很多次迭代,耗時會特別長,尤其是當新聞的數量很大且詞表也很大的時候,所以我們就在想,有沒有一種辦法可以一次性把所有的新聞相關性計算出來。這種方法就是奇異值分解,簡稱SVD。

奇異值分解是將一個大矩陣分解成三個小矩陣相乘

  • 其中這個大矩陣行表示文章,即每一篇對應一篇文章,每一列對應文章中的一個詞。三個小矩陣的第一個小矩陣是對詞進行分類的一個結果。他的每一行表示一個詞,每一列表示一個語義相近的詞類,這一行的每個非零元素表示這個詞在每個語義類中的重要性(或相關性),數值越大越相關。

  • 最后一個矩陣是對文本的分類結果,他的每一列對應一篇文本,每一行對應一個主題。

  • 中間的矩陣表示詞的類和文章的類之間的相關性。

余弦分類和奇異值分類兩種方法的優缺點:

奇異值分解的優點是能夠快速得到結果,但是結果較為粗糙,適合于大規模文本的初分類。而余弦分類計算較慢,結果較為準確,在實際應用中可以先進行奇異值分解得到粗分類結果,再利用向量余弦在粗分類的基礎上進行迭代。

12|信息指紋及其應用:

信息指紋和人類指紋是一樣的道理,人與人之間是不存在相同指紋的,所以可以用指紋來辨別某個人。而每條信息(視頻、文字、音頻等內容)也會有自己所特有的表征信息,這就是信息指紋。

信息指紋最常見的應用就是反盜版,通過對比原創和非原創的信息指紋即可。

13|搜索引擎反作弊和搜索結果權威性:

搜索引擎的反作弊是因為有人針對搜索引擎作弊,而這些作弊的人看到了搜索引擎的排名,好的排名就可以獲得好的流量就可以獲得好的商業價值。在前面的章節說過,排名與網站的本身的質量度(即指向這個網頁的其他網頁的次數)有關。所以就有人抓住這個點,販賣鏈接,對質量度進行干擾。而反作弊就是找到這些作弊的(噪聲),然后把他們的這些虛假質量度去掉,就是正常的排名情況。

搜索引擎的權威性
在前面的章節中我們有提到搜索引擎的相關性,就是指搜索詞與目標網頁的相關程度。而權威性是用來反應目標網頁的可信程度,用權威度來衡量。

計算權威度的步驟:
1、對每一個網頁正文(包括標題)中的每一句進行句法分析,然后找到涉及主題的短語(比如吸煙有害健康)以及對信息來源(比如國際衛生組織)的描述。
2、利用互信息,找到主題短語和信息源的相關性。
3、對主題短語進行聚合,把相同意思,不同表達方式的詞語進行整合,其實和新聞分類類似,把相同主題的聚集成一類。(比如吸煙的危害和煤焦油的危害),采用矩陣運算即可。
4、對網站內容進行聚合,有一些是與主題有關的,有一些是無關的。

14|邏輯回歸和搜索廣告:

邏輯回歸主要被用來預測用戶可能會點擊哪些廣告。就是我們常聽說的點擊率預測。預測的原理把用戶的一些信息(搜索詞,性別,地域,身份等信息)當做回歸參數,然后去預測該用戶點擊哪種廣告的可能性較大,然后去顯示哪種廣告。

15|各個擊破算法:

對于一些計算量較大的問題,我們將其分解成若干小問題,單獨運行,最后進行合并即可,也就是所謂的分布式運算,對于這種算法現在已經有現成的平臺-mapreduce。

總結

以上是生活随笔為你收集整理的数学之美(二)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。