當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美（一）

發布時間：2023/12/19 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了数学之美（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第73篇

本篇為書籍《數學之美》的一部分讀書筆記，分兩篇來完成，只摘錄了書中我個人認為重要的、典型的部分章節的部分內容分享出來，有興趣的可以自己買來看看。

01|文字和語言vs數字和信息:

1、數字、文字和自然語言一樣，都是信息的載體，而語言和數學的產生是為了記錄和傳播信息。

2、通信模型
發出者發出的信息源先編碼然后經過信道傳輸給接收者，接受者進行解碼以后獲得發出者的信息。
在通信時如果信道較寬，信息不必壓縮可以直接傳遞，如果信道很窄，信息傳遞之前需要盡可能壓縮，然后在接受端進行解壓縮。

3、文字的歧義
對于一些多義字，我們不知道他在特定的環境下的含義，這樣就有可能造成歧義。解決這種問題最好的方法就是聯系上下文，來判斷這個字在該環境下的真實意思是什么。

4、關于翻譯
翻譯這件事之所以能夠完成，是因為不同的文字在記錄信息方面的能力是等價的，也可以理解成文字只是信息的載體，而非信息本身。(這就是為啥英文和漢字表達的信息可以是一樣的)

5、為什么現在用的是十進制而不是其他
因為早期人類計數是通過數指頭，人類只有十根手指，所以就用的十。

02|自然語言處理從規則到統計：

1、因為我們人類在學習一種新的語言時經常會以語法作為我們第一個學習的知識，所以當我們在處理自然語言的時候也會慣性的朝這個方向去思考，但是這種是不可行的，因為對于短句子還可以湊合著用，但是一旦句子長度變長以后計算程度就會變得很復雜，是行不通的。

基于規則的處理就是上圖那樣。

2、基于統計的自然語言處理的核心模型是通信系統加隱含馬爾可夫模型（后面會提到馬爾科夫假設）。

03|統計語言模型:

1、自然語言從它產生開始，逐漸演變成一種上下文相關的信息表達和傳遞的方式，因此讓計算機處理自然語言，一個基本的問題就是為自然需要這種上下文相關的特性建立數學模型，又稱為統計語言模型。

2、統計語言模型的產生是為了解決語音識別的問題，在語音識別中，計算機需要知道一個文字序列是否能構成一個大家理解而且有意義的句子，然后輸出給使用者。如果是基于規則分析的話就如前一章提到的，會去分析句子的語義和規則是否符合。但是前面說過這種是行不通的。

3、一個名叫賈尼克的專家提出了“一個句子是否合理，就看他的可能性大小如何”，也就是各個詞排列順序出現的可能性，至于可能性的話可以用概率衡量。

4、如果按第三條提到的去計算概率的話，需要計算第一個詞以后每一個的條件概率然后相乘，但是這種遇到了同樣的問題，如果句子過長，詞數過多，計算起來就會很復雜。

5、針對上面第四條所面臨的問題，一個名叫馬爾可夫的科學家提出了一個假設，“假設任意一個詞的出現的概率只與同他前面的與他緊挨著的詞有關”，我們把這個假設稱為馬爾可夫假設。而在計算概率的時候只需要計算該詞在語料庫出現的相對頻度即可。

6、上面第五條會有一個問題就是一個詞在詞庫中出現的次數很少，也就是幾乎接近于零，這樣他的概率就是零概率。遇到這種問題我們該怎么處理，科學家古德-圖靈提出了一種方案，即對這種概率越小的詞繼續減小他的概率。根據Zipf定理，即下圖。

次數越多的詞越少，我們為了減小這些小概率的詞出現的概率，就增加他的次數。一般情況下對出現次數超過某個值的詞不做概率下調，只有出現次數低于某個值的詞才會對其做概率下調。

04|談談分詞:

1、中文分詞方法

在第三章我們知道了自然語言處理的統計模型，即正確語義順序應該是看哪種排列順序出現的概率大就用哪種。分詞也是同樣的道理，保證分詞后這個句子出現的概率最大，就是最佳的分詞效果。

05|信息的度量和作用:

1、什么是信息熵
信息熵是用來度量(量化)信息的，一條信息的信息量與其不確定性有著直接的聯系，當我們需要了解清楚一件非常不確定的事情的時候，我們需要了解大量的信息。反之，當我們對一件事了解較多的時候，則不需要太多的信息就能把他搞清楚。從這個角度來看，信息量(熵)就等于不確定性的大小。
科學家香農提出了用不確定事件的概率乘他的log的對數來量化信息熵。

2、信息的作用
在前面提到過，信息量就等于不確定性的大小，而信息的作用就是為了消除不確定性，很多時候我們應該做的是尋找更多的相關信息去消除不確定性，而不是在很少或不相關的信息下面利用什么算法去計算，本質上沒什么效果。

3、互信息
在第2小節中提到，我們應該尋找更多的相關信息來降低某件事情的不確定性，這里的這個相關信息我們還怎么理解，哪種程度叫相關呢，哪種程度叫不相關呢。科學家香弄提出了一個“互信息”的概念用來度量兩個隨機事件的“相關性”。

4、相對熵
相對熵也用來衡量相關性，但和變量的互信息不同，它用來衡量兩個取值為正數嗯函數的相關性，相對熵越小，說明兩個信號越接近。

在自然語言處理中常用來衡量兩個常用詞在不同文本中的概率分布，看他們是否同義。還可以利用相對熵得到信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率(TF-IDF)。

06|布爾代數和搜索引擎

1、搜索引擎的原理:

建立一個搜索引擎的大致流程是自動下載盡可能多的網頁；建立快速有效的索性(這里的索性類似于圖書館的索性，圖書館里面每本書代表一個網頁，那些分類索性和搜索這里的索性是一致的)；根據相關性對網頁進行合理的排序。

07|圖論和網絡爬蟲：

1、圖論
圖論〔Graph Theory〕是數學的一個分支。它以圖為研究對象。圖論中的圖是由若干給定的點及連接兩點的線所構成的圖形，這種圖形通常用來描述某些事物之間的某種特定關系，用點代表事物，用連接兩點的線表示相應兩個事物間具有這種關系。

2、網絡爬蟲

在前面的章節中說到搜索引擎的第一步就是下載盡可能多的網頁，這里就需要通過網絡爬蟲去獲取，但是在具體獲取的過程中以一種什么樣的順序去下載呢，這里主要利用兩種圖論中遍歷算法:BFS(廣度優先搜索)和DFS(深度優先搜索)，兩者的區別是前者盡可能廣的訪問不同的節點(即更多的種類的網頁)，而后者是盡可能深的訪問一個以后隱藏的更多節點內容(一個網頁里面的超鏈接)。

08|網頁排名技術

1、網頁排名的核心原理

在前面說搜索引擎的三要素分別是下載網頁，建立索性，排名。排名的核心原理就是如果一個網頁被很多其他網頁所鏈接，說明他受到普遍承認和信賴，那么他的排名就高(排名是用來說明網頁質量度)。具體一點就是一個網頁的排名等于所有指向這個網頁的其他網頁的權重之和。而其他網頁的權重又等于其自身網頁的排名情況。

09|確定網頁和查詢的相關性

1、前面一章說到網頁的排名與該網頁的質量度有關，質量度越高，排名越考前。排名除了與網頁質量有關以外，還與查詢內容與網頁內容的相關性有關。

2、度量查詢與網頁內容相關性
依據TF-IDF原理，TF-IDF等于TF*IDF,TF(Term-Frequency)中文意思是文字詞頻，就是該關鍵詞在目標網頁中出現的頻率，計算方法為該關鍵詞在網頁中出現的次數比網頁總詞數。IDF(Inverse-Document-Frequency)中文意思是逆文本頻率指數，通俗一點就是該關鍵詞的權重，計算方法為:log(全部網頁數/有關鍵詞的網頁數)。

3、一個詞在越多的網頁中出現，他對主題的預測能力越差，權重越小。對于一些語氣詞，比如的、是、和之類的詞對主題沒什么影響，我們把這一類詞叫做“停止詞(StopWord)”，這一類詞在計算相關性的時候不計算在內。

10|余弦定理和新聞分類：

1、新聞的分類:
所謂分類，就是把相同類型的內容放到一類，這里的重點就是如何辨別兩條新聞的類型是一樣的呢。在前面的章節我們學過TF-IDF用來判斷搜索詞與網頁的相關性，我們在這里也需要用到TF-IDF的概念，具體的操作方法是:計算出兩篇新聞中每個詞的TF-IDF值，然后把其按次表中對應順序排好，這樣兩篇新文就變成了組數字(向量)。

根據余弦定理可得，兩個向量的余弦值越大，對應的所成夾角越小，夾角越小，說明兩組向量挨的越近，文章越相似。反之亦然。

PS：

在后臺消息框回復數學之美，可獲得本書籍電子書鏈接。

總結

以上是生活随笔為你收集整理的数学之美（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：白色风扇消失，猫头鹰 Noctua 公布
下一篇：数据可视化入门篇