日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > php >内容正文

php

php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...

發布時間:2024/9/19 php 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
原出處:蜘蛛池博客
原文鏈接:百度搜索引擎工作原理,做Seo的建議看一看 - 蜘蛛池博客

從事SEO(搜索引擎優化)工作的人可以比喻成搜索引擎的貼身管家,作為一名合格稱職的管家必須要了解所服務對象的習性,愛好,健康程度等。蜘蛛池博客小編整理發布。

SEO服務的對象是搜索引擎,必須對它的運行規律、工作原理、習性、優缺點等都銘記在心,多多實踐操作,平時實踐的越多,經驗也就越豐富。

搜索引擎是由人創造出來的,所以也是有理可尋的。搜索引擎工作過程有主要的三段工作流程,爬行、預處理及服務輸出。

一、爬行抓取:

抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在服務器原始日志中留下記錄。

爬行抓取是搜索引擎工作中重要的一步,把所有需要抓取的地方抓取回來處理分析,因此如果在抓取這部分出錯,后面就完全癱瘓了。

搜索引擎是事先已經處理好了所抓取的網頁。搜集工作也是要按照一定的規律來進行,基本上有以下兩種特征:

1、批量收集:對互聯網上只要是存在鏈接的網頁都收集一遍,耗時在幾周左右。缺點在于增加了額外的帶寬消耗,時效性也不高。

2、增量收集:是批量收集的一個技術升級,完美的彌補了批量收集的缺點。在原有的基礎上搜集新增加的網頁,變更上次收集之后有改變的頁面,刪除收集重復和不存在的網頁。

二、預處理:

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。也不可能直接在用戶輸入關鍵詞后返回排名結果。因此抓取來的頁面必須經過預處理,為最后的查詢排名做好準備。

1、提取文字

搜索引擎抓取到頁面HTML代碼時,首先會做的是從HTML文件中去除標簽、程序,提取出可以用于排名處理的頁面文字內容。

2、中文分詞

分詞是中文搜索引擎特有的步驟。英文句子單詞與單詞之間有空格作為間隔,搜索引擎可以直接把句子劃分為單詞的集合,中文則不能。搜索引擎需辨認哪些字會組成一個詞語,哪些字本身就是一個詞。比如“空氣開關”將被分為“開關”和“空氣”兩個詞。

中文分詞方法基本上有兩種:基于詞典匹配和基于統計。

基于詞典匹配方法是指將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。如果按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優先級的不同,又可以分為最大匹配和最小匹配。將掃描方向和長度優先混合,又可以產生正向最大匹配、逆向最大匹配等不同方法。詞典匹配方法計算簡單,其準確度在很大程度上取決于詞典的完整性和更新情況。

基于統計的分詞方法是指分析大量文本字樣,計算出字與字相鄰出現的統計頻率,幾個字相鄰出現越多,就越可能形成一個單詞?;诮y計的方法的優勢是對新出現的詞反應更快速,也有利于消除歧義。

基于詞典匹配和基于統計的分詞方法各有優劣,實際使用中的分詞系統都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。

3、去停止詞

無論是英文和中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“的”、“地”之類的助詞,“啊”、“哈”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞。這類詞被稱為停止詞。搜索引擎會在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。

4、消除噪聲

絕大部分的頁面上還有一部分內容對頁面主題沒有任何貢獻,比如版權聲明、導航條、廣告等。這些區塊都屬于噪聲,對頁面主題只能起到分散的作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭,導航,正文,頁腳,廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主題內容。

5、去重

同一篇文章會被不同的網站使用,搜索引擎不喜歡這種重復性內容。試想一下,如果用戶在前兩頁看到的都是不同網站的同一篇文章,那勢必會造成用戶體驗差的表現。搜索引擎只希望返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程叫去重。

去重的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取最有代表性的一部分關鍵詞(經常是出現頻率最高的關鍵詞),然后計算這些關鍵詞的數字指紋。這里的關鍵詞選取是在分詞,去停止詞,消噪之后。通常識選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。

6、正向索引

正向索引也可以簡稱為索引。經過前面五個步驟,搜索引擎得到的就是獨特的,能反應頁面主體內容的、以詞為單位的字符串。接下來搜索引擎就可以提取關鍵詞,按照分詞程序劃分好的詞,把頁面轉化為一個關鍵詞組成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式(如出現子啊標題標簽、黑體、H標簽、錨文字等)、位置等信息。這樣,每個頁面都可以記錄為一串關鍵詞集合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案。

7、倒向索引

正向索引還不能直接用于排名。假設用戶搜索關鍵詞2(見上圖),如果只存在正向索引,排名程序需要掃描所有索引庫文件,找出包含關鍵詞2的文件,再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求。

8、鏈接關系計算

搜索引擎在抓取頁面內容后,必須事先計算出:頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文字,這些復雜的鏈接指向關系形成了網站和頁面的鏈接權重。Google PR值就是這種鏈接關系的最主要體現之一。其他搜索引擎也都進行類似計算,雖然它們并不稱之為PR值。

9、特殊文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經常會看到這些文件類型。但目前的搜索引擎還不能處理圖片和視頻,對Flash這類非文字內容,以及腳本和程序只能進行有限的處理。

10、質量判斷

在預處理階段,搜索引擎會對頁面內容質量、鏈接質量等作出判斷。近幾年的百度和Google等推出的算法都是預先計算,然后上線,而不是實時計算的。這里所說的質量判斷包含很多因素,并不局限于針對關鍵詞的提取和計算,或者針對鏈接進行數值計算。比如對頁面內容的判斷,很可能包括了用戶體驗、頁面排版、廣告布局、語法、頁面打開速度等,也可能會涉及到模式識別、機器學習,人工智能等方法。

三、服務輸出:

1、輸出結果

搜索引擎最終會跟用戶的搜索輸出結果,這里就是我們看到的百度快照了,在前面搜索引擎綜合評估的機制原理中,我們可以看到搜索引擎已經做了初步處理,然后再根據用戶的實際搜索詞來進行具體的調整,然后輸出結果。

2、智能完善

搜索引擎還有另外的工作,那就是本身不斷的學習和完善,通過這種智能學習,不斷完善規則,給搜索用戶展現更加符合期望的搜索結果。

總結

以上是生活随笔為你收集整理的php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: wwwxx国产 | 国产黄色大片视频 | 色屁屁一区二区三区视频 | 福利视频导航网 | 国产三级大片 | 亚洲无人区码一码二码三码 | 香蕉视频免费在线播放 | 四虎影库永久在线 | 欧美欧美欧美欧美 | 欧美另类性 | 在线观看你懂的网址 | 亚洲在线视频免费观看 | 欧美成人黑人xx视频免费观看 | 丰满人妻一区二区三区53视频 | 国产美女流白浆 | 久章草影院 | 一级成人免费视频 | 欧美人与禽zozzozzo | 在线爽| 国产精品第一页在线观看 | 久久精品无码一区二区三区 | 久久精品伦理 | 日韩精品成人一区 | 99国产成人精品 | 好男人视频www | 国产精品欧美激情 | 人人射视频 | 91看片淫黄大片 | 最近中文字幕在线mv视频在线 | 亚洲少妇第一页 | 国产一区二区在线免费观看视频 | 国产jjizz一区二区三区视频 | 亚洲欧美另类一区 | 久久天堂av综合合色蜜桃网 | 日韩成人短视频 | 中文字幕在线观看网站 | 国产高潮av | 在线小视频你懂的 | 伊人22综合 | 天天弄天天干 | 日本黄色中文字幕 | 欧洲成人av | 我的邻居在线观看 | 天堂中文字幕免费一区 | 丁香婷婷亚洲 | 日本人jizz| 国产综合无码一区二区色蜜蜜 | 婷婷毛片| 亚洲m码 欧洲s码sss222 | 99精品久久久久久中文字幕 | 欧美一区二区三区的 | www.在线观看麻豆 | 欧美亚洲综合视频 | 男生和女生一起差差差视频 | 一二三区中文字幕 | 午夜影院免费体验区 | 在线免费观看成人 | 奇米影视首页 | 国产乱子伦农村叉叉叉 | 麻豆免费在线观看 | 久久911 | 亚洲自啪 | 欧美日本成人 | 欧美亚洲国产成人 | av日韩一区二区 | 亚洲日日操 | 国产一区二区三区四区三区四 | 国产成人精品一区二区 | 小视频免费在线观看 | 欧美大片在线观看 | 美女大bxxxxn内射| 中文字幕在线欧美 | 字幕网av | 中国免费看的片 | 一级黄色伦理片 | 秋霞国产精品 | 一本—道久久a久久精品蜜桃 | 男女草逼网站 | 色欲久久久天天天综合网 | 动漫美女被x | 天天综合网天天综合色 | 日韩大片免费在线观看 | 69人人| 亚洲女同一区二区 | 黄色av网站免费 | 99免费在线观看视频 | 国产成人精品一区二区三区四区 | 私密spa按摩按到高潮 | 韩国美女一区二区 | 深夜福利麻豆 | 日婷婷| 欧洲成人午夜精品无码区久久 | 国产三级av在线播放 | 在线播放av网址 | 国产精品一区三区 | 91福利一区二区 | 中文字幕亚洲一区 | 青娱乐导航| 欧美成人午夜免费视在线看片 |