日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎怎么收集的那么多内容?

發布時間:2023/11/30 编程问答 119 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索引擎怎么收集的那么多内容? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

現在互聯網上存在的網頁數量是數以百億千億計的,這些網站存儲在不同的服務器上,分布在世界各地的數據中心和機房。

?
?? 對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。一方面原因是抓取技術存在瓶頸,無法遍歷所有網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面平均大小20K計算(包含圖片),100億網頁的容量是100×2000G字節(相當于80個容量為250G的硬盤),即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由于數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而評價重要性的主要依據是某個網頁的鏈接深度。
?

?? 有人會認為搜索引擎在接收到搜索請求時,會實時地從全球所有的服務器上查詢信息,并把查詢結果展示在用戶面前,這其實是一種誤解。如果搜索引擎是這樣工作的,那么查詢一條信息可能要等上好幾年才能得到搜索結果,這還不包括期間網頁發生的變化。

?

?? 實際上,搜索引擎會預先去拜訪大量的網站,并把這些網頁的部分信息預先存儲在自己的服務器上,這樣,當用戶搜索的時候,其實是在搜索引擎自己的服務器中進行查詢,就像我們在自己的電腦中查詢文件一樣。

?

?? 搜索引擎是非常復雜的技術,但是其基本原理并不復雜,其基本技術包括抓取、索引、排序。

?

?? 一、抓取


?? 搜索引擎首先會派出一種被稱作“蜘蛛”或者是“機器人”的軟件,根據一定規則掃描存在于互聯網上的網站,并沿著網頁上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站。為保證采集的資料最新,它還會回訪已抓取過的網頁。

?
?? 二、索引


?? 由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面文字中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。

?
?? 三、排序


?? 當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。


?? 最后,由檢索器將搜索結果的鏈接地址和頁面內容摘要等內容組織起來,返回給用戶。

?

更多SEO優化技巧內容

使用ASP技術完成301重定向

什么是站內鏈接

域名長短是否影響SEO

SEO外鏈之制作站群策略

SEO優化-配置301重定向之IIS配置

如何查看雅虎反向鏈接

站內鏈接之如何制作網站地圖搜索引擎篇

DIV+CSS對SEO的影響六點要素

SEO長尾關鍵詞之如何選擇長尾關鍵詞?

轉載于:https://www.cnblogs.com/gootry/articles/1934946.html

總結

以上是生活随笔為你收集整理的搜索引擎怎么收集的那么多内容?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。