當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索介绍 | 当你搜索时，发生了什么？

發布時間：2024/1/18 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了搜索介绍 | 当你搜索时，发生了什么？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一如“萬物皆可百度”、“萬物無難事，只要肯百度”所言，搜索在我們生活中早已成為習以為常的事情。畢業季的我們會在每日99+的群聊信息中搜索所需的信息；工作一上午后會點開外賣，找找看今日有沒有想吃的午餐；晚上回家路上，打開社交平臺，搜索看看今天都有什么頭條新聞...

點下搜索的瞬間，結果已出現在屏幕上，快速又便捷。殊不知在小小的屏幕之下，搜索引擎井然有序地在其巨大的數據庫中，完成了檢索、排序...

一、搜索

“當你終于將相關的所有信息搜羅到手后，你會做什么？”

作家詹姆斯·格雷克在《信息簡史》中所言，信息洪流中，各種應對策略也隨之出現。方法多種多樣，但歸根結底，本質上可歸為兩類：要么是過濾，要么是搜索。

現時代，我們每個人都能力去自由地生產、消費信息，海量的信息涌入數據庫。心理學家斯坦利·米爾格拉姆的一項社會網絡實驗“六度分隔”中所證，這個星球上的每個人之間最多相隔六個其他人。

信息亦如此，在復雜的網絡中，事物與事物之間擁有很高的連通度，但并非所有的連接都是有價值的，這些異乎尋常的連接度使得信息的搜索變得困難重重，搜索似乎變成了一件無邊無際的事情。

90年代末，有人預測在如此龐大的信息中完成檢索是不可能的，但至今，雖然搜索引擎在某些時候仍不盡人意，但已經具備了基本功能。

搜索介紹

維持生命力的方式就是讓“血液”不停的流動，從古至今人類一直尋求更新、更快的連接交互方式。

搜索加速了信息的流通，打通了海量數據之間的自守狀態，信息走向了開放。用戶可以快速的獲取到高價值的信息，企業和平臺也可通過搜索推送給用戶信息。我們可以更準確的找到結果，同時也可以看到更多相關的內容。

搜索是對互聯網上的信息資源進行搜集、整理、檢索的一項互聯網技術。產品的搜索功能發展至今，提供給用戶的已不僅僅是信息輸入的搜索框，面對用戶主動地推薦，引導用戶消費產品中優選高質量的內容。

可以說搜索帶給了我們全新的數字生活，在不勝其擾的信息中，消費者依賴于各種檢索，來區分精華和糟粕。尤其是對于新手用戶來說，還可以快速地了解到產品中包含的服務模塊，如下圖，分別為微信、淘寶、知乎的搜索界面。

微信為一款手機通信軟件：通過搜索，提供給用戶的內容包括有朋友圈、文章、公眾號、小程序、音樂、表情、服務；

知乎為一款問答社交軟件：提供時事熱榜、數碼、影視、科學、體育等欄目；

淘寶為一款線上購物軟件：主要解決用戶的購物需求，在搜索界面可以看到的功能模塊有搜索記錄、熱搜推薦（商品內容）。

二、搜索引擎

搜索引擎簡介

搜索引擎是一門檢索技術，其核心模塊一般包括爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等；根據用戶需求、一定算法、特定策略為用戶提供高速、高相關性的信息服務。

搜索引擎基本結構一般包括：搜索器、索引器、檢索器、用戶接口等四個功能模塊。搜索引擎通過其結構來實現搜索工作，基本原理可分為信息采集模塊、查詢表模塊、檢索模塊。

搜索引擎流程

我們從APP、網站、小程序等不同載體中看到的搜索框，實際只是搜索引擎系統提供給用戶的檢索界面，當我們輸入關鍵詞，點擊查詢后，搜索引擎對我們輸入文本進行復雜的分析，并從龐大的數據庫中獲取所有相關的信息，根據一定的排序策略將檢索結果呈現至用戶界面。

不同搜索引擎有各自的搜索策略，其索引的獲取、query的分析、排序的算法不盡相同，因此在不同產品的搜索引擎搜索相同的query會獲得不同的結果；當前搜索引擎收集用戶行為數據，著力個性化推薦，同一產品不同時期檢索某一關鍵詞，也可能會獲得不同的結果頁。

具體流程如下：

搜索引擎類型

提及搜索，我們腦海中馬上浮現的大概有百度、谷歌、淘寶等電商平臺搜索框、微博等社交平臺搜索框等。這些我們常用的搜索引擎，主要是全文搜索類型以及垂直搜索類型，除此之外，搜索引擎的類型還包括目錄搜索、元搜索檢索、集合式檢索、門戶搜索引擎等等。

全文搜索：全文搜索從互聯網上提取網站信息，對海量的數據進行有效的管理和快速檢索，最常用的全文搜索引擎有百度、谷歌等；

垂直搜索：垂直搜索引擎是針對某一行業的專業搜索引擎，是搜索引擎的分支和延伸。相較于通用搜索引擎，提供深度、準確性更高的搜索服務。垂直搜索引擎的應用方向很多，比如企業庫搜索、供求信息搜索、購物搜索、房產搜索、人才搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等，幾乎各行各業、各類信息都可以進一步細化成各類垂直搜索引擎。

2.1 分詞

分詞是我們在搜索功能中較常聽到的詞匯之一。

分詞就是對一段文本，通過規則或者算法分出多個詞，每個詞作為搜索的最細粒度一個個單字或者單詞。分詞的目的主要是為了搜索，尤其在數據量大的情況下，分詞的實現可以快速、高效的篩選出相關性高的文檔內容。

搜索過程中，分詞由搜索引擎內的分詞器，執行完成。分詞器作用于用戶的輸入內容、以及文檔索引建立的這兩部分。前臺文本內容的輸入，來源于不同用戶的需求；索引數據的來源可通過業務需求決定，自定義設置。

如在垂類電商業務中，我們構建索引的原始數據，便可以是商品的標題、詳情、類目信息、品牌信息等，或者是從后臺建立新的字段，分詞過濾后進入索引區，等待檢索。

2.1.1 分詞流程

用戶在搜索引擎界面輸入關鍵詞，點擊“搜索”按鈕之后，搜索引擎程序開始對搜索詞進行以下處理：分詞處理，根據情況對整合搜索是否需要啟動進行判斷、找出錯別字和拼寫中出現的錯誤、把停止詞去掉。

分詞的實現主要依賴分詞器。分詞器為分析器三大構成部件之一，文檔的分詞還會涉及到分詞前的預處理，以及分詞后的過濾操作。分析器的三構件分別為：字符過濾器、分詞器、過濾器，文本在三者間流轉順序依次為字符過濾器—分詞器—過濾器。

原始文本在分詞之前，會流轉到字符過濾器，將原始的文本作為字符流接受，通過增、減、改的方式改變字符流。處理后的流進入分詞器，按照特定規則、算法執行分詞操作，最后通過不同的過濾器進行處理。一個分析器中可以有0個或多個字符過濾器和過濾器，僅有一個分詞器。

字符過濾器：字符過濾器用于字符流傳遞到分詞器之前對它進行預處理，字符過濾器支持數字的轉換；將所有指定的字符串替換成特定的字符串；將任意字符轉換為置頂字符。

分詞器：不同語言分詞規則有所差異，英文分詞、中文分詞、拼音分詞的分詞策略各不相同。英文分詞可以根據空格將單詞分開,中文分詞比較復雜,可以采用機器學習算法來分詞。

過濾器：將切分的單詞進行加工。如大小寫轉換、去掉停用詞（如“最”、“因為”、“和”）等，該過濾器不同于檢索時過濾器。

2.1.2 分詞的算法

現有的分詞包括有英文分詞、中文分詞、拼音分詞。中文分詞與英文分詞有所區別，中文分詞存在更多的難點和歧義點，不同分詞策略對文檔的召回率和精確率影響較大。

英文單詞與單詞之間，在輸入時就會通過空格、逗號、句號去隔開，較好的去識別。而中文由字和字構成詞，由詞匯構成句子。如何去合理切分，且可以精確傳達用戶本意、需求，是中文分詞的難點。拼音分詞與中文分詞的結合，更全面地處理了用戶簡寫、誤輸入等使用場景。

拼音分詞可以用來分析字詞的全拼、首字母全拼、字詞的完整拼寫等，可以進行自定義的設置。拼音分詞配合中文分詞，完整關鍵詞的過濾流程，達到高效分詞的目的。

中文分詞算法主要分為三大類，基于詞典的分詞、基于統計的分詞、基于有序標注的分詞。

不同的分詞策略要適應于各自的業務場景，可能有些業務場景需要分詞的精度大于速度，有些場景要求速度大于精度，因此在理解分詞原理的基礎上，如何去配合業務的需求，高效地實現分詞功能，這些都給算法工程師提出了更高的要求。

2.1.3 分詞的使用

在搜索過程中，分詞器使用于文檔的索引流程以及用戶輸入文本的檢索流程中，需注意的是索引流程和檢索流程中所使用的分詞器需一致。

索引使用：原始文本預處理后，使用分詞器將文檔內容切分為單個字詞；

檢索使用：用戶輸入文本對象，分詞器進行分詞處理，分詞后建立query對象，執行檢索操作。

中文分詞相較于英文分詞，無空格作為詞之間的分隔符，且中文詞語組合復雜，歧義較多，一直為自然語言處理中的難點。

2.2 構建索引

索引是對數據庫表中一列或多列的值進行排序的一種輔助型數據結構，構建索引有助于對表中數據的查找和排序，檢索時數據庫系統不必掃描整個表，而是直接定位到符合條件的記錄，大大加快了查詢速度，達到了以下目的：

快速：加快檢索數據

篩選：盡快找到符合限制條件的記錄

構建索引大大縮短查詢時間的同時，也帶了了一定的成本，創建和維護索引都需要時間成本和空間成本，隨著數據量的增加其所占用的物理存儲空間也會隨之增大。數據量大、經常使用查詢功能，且需要排序優化的業務情境下，索引的建立還是很有必要的。

索引的構建，主要有倒排序索引和正排序索引。倒排序索引是對關鍵詞進行索引，以求快速得到匹配文檔集；正排序索引對文檔進行索引，方便于排序、過濾、匯總。倒排序索引和正排序索引是搜索引擎的重要數據結構，之后檢索等的操作都建立在此基礎上。

2.2.1 倒排序索引

1）倒排序索引介紹

倒排索引（Inverted index），也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

索引是為了更快找到文檔的一種數據結構，相當于圖書中的目錄，用戶根據目錄可以快速找到所需內容。倒排索引不是根據目錄或編號來定位內容，它是通過文檔中的某個字、詞語而找到文檔的索引類型，通過立即的單詞標示迅速獲取結果。倒排索引的建立和維護較復雜，但查詢快速、便捷、高效，是文檔檢索系統中最常用的數據結構。

2）倒排索引的構建流程

倒排序索引的構建有兩個表格至關重要。表一為文檔編號及文檔內容，表二為分詞后關鍵詞及對應文檔編號。數據的存儲時，將表二拆分為兩個數據結構，用于存儲倒排文件以及關鍵詞及其偏移量。

搜索最基礎、簡單的流程便是外部關鍵詞輸入，表二中查詢到關鍵詞出現的位置以及文檔編號，最終輸出結果文檔內容。

2.2.2 正排序索引

正排索引（forward index），以文檔編號為關鍵字，表中記錄文檔中每個字的位置信息，查找時掃描表中每個文檔中字的信息直到找出所有包含查詢關鍵字的文檔。正排序索引的查詢往往滿足每個文檔有序、頻繁的全文查詢和每個單詞在校驗文檔中驗證這樣的查詢。

正排索引可以查詢匯總到關鍵字的屬性、相關的頻次以及位置等，適用于一些過濾操作以及匯總操作。

比如說搜索 “干飯”時，可以快速查詢出包含“干飯”這個關鍵字的文檔，有利于關鍵字相關性和權重的計算。正排序索引，搜索“干飯”時，搜索引擎需要檢索每一個文檔中的每一個關鍵詞，正排索引適合于一些區間的索引。在電商的搜索中，有較多的過濾、篩選的選項，因此同時引入正排索引和倒排索引還是很必要的。

2.3 檢索

檢索就是將信息按一定的方式組織和存儲起來，根據用戶的需要、信息屬性、特征分，利用檢索工具找出有關信息的過程和技術。

在檢索之前，搜索引擎會經過大量文本數據的的收集，以及處理。但是對于用戶來說，最關鍵的并不是找到所有結果，將查詢到的所有信息展現給用戶沒有太大的意義，也并非用戶的真實意圖，過多的信息瀏覽和篩選反而會給用戶帶來糟糕的產品體驗。

如何恰當的理解用戶搜索內容的本意，如何在上千萬的頁面信息中把最相關、最切合需求的結果排在最前面，推薦給用戶選擇，才是搜索更好服務用戶的關鍵。

2.3.1 檢索流程

檢索流程由用戶特定的信息需求出發，采用一定的方法、技術手段，根據一定的線索與規則從中找出相關信息，將最終結果返回至用戶界面。經過了分詞處理、query分析、評分排序、打散重排等流程。在檢索過程中需要在意前臺用戶輸入原始文本與返回結果的相關性，以及返回結果的重要程度，并依此排序展示。

相關性是指返回結果和輸入query之間的線性關系的強度和方向，重要性是指商品被信賴的程度。如何把相關性強、重要度高的結果返回給用戶，如何根據業務需求去權衡現階段產品帶給用戶的價值、合理分配評分權重，尤為重要。

其在商品繁雜、用戶需求模糊的電商的搜索場景下，商品的評分、排序策略可以減少用戶鑒別商品的成本，帶來優質的用戶體驗和轉化。

2.3.2 Qurey分析

檢索過程中的關鍵技術有很多，其中最著名的是query分析技術。

Query分析是對用戶原始文本分析、理解實際意圖的過程，是標準的自然語言處理的任務。用戶在表達意圖時，原始query的組織會出現各種各樣的表達形式，和檢索語料語義表達相同，但是文字描述可能會出現相差較大的情形，如：

用戶地方性語言的表達差異化，原意想要搜索鋼琴，拼音輸入 “gangqing”；

為快速搜索，只輸入首字母等，原意搜索天氣預報，輸入“tqyb”；

在中文字符輸入的缺字、錯詞、慣用稱呼等情況，原意為王者榮耀，輸入為“王者農藥”；

從其他地方整段文字的摘入，原始文本的不完整和其他字符的代入；

陌生詞匯的搜索，如想要搜索 “宿攤” ，并不是很清楚想要查詢內容的讀音，就會有 “宿攤”、“咒術宿” 等有誤的輸入；

搜索信息冗余，帶有諸多商品屬性，原意搜索為冰箱，輸入“冷凍食物大容量冰箱”；

Query分析可能會涉及到原始文本的分詞、音形轉換、詞語過濾、詞性標注、糾錯、歸一、意圖識別等，實際應用和前臺顯示包括有我們常見的搜索聯想詞、相關推薦、關鍵詞預測等。處理后的檢索詞可以快速、準確的查詢出值得用戶信賴的優質結果。

面對用戶形式多樣的意圖表達，可能會出現查詢結果不符合用戶意愿、或者是無查詢結果的情況，因此對檢索字符的分析可謂是關鍵一步。

2.3.2.1 拼寫糾錯

用戶在輸入文本搜索時，內容不一定完全正確，可能會出現別字、純拼音、模糊音、拼音漢字混合等問題，在這種情境下就需要提供給接錯功能，提升用戶體驗。

拼寫涉及復雜的流程，如下圖所示，以淘寶搜索為例，用戶在搜索框輸入 “shuji” ，原意為“書籍”搜索，判定文本屬于全拼輸入的問題。點擊搜索之后，頁面展示為書籍的搜索結果，但仍然提示是否搜索 “shuji” ，點擊 “仍搜索shuji”，呈現包含 shuji 關鍵詞的內容。

可見在對query進行糾錯時，對于可以產生搜索結果的關鍵詞進行了原query的保留，以及拼寫糾錯的操作。用戶在搜索過程中，提示用戶仍按照原query搜索，或者是選擇糾錯后query進行搜索，在對用戶意圖把握不準確的情況下，提供給用戶自主的選擇權。

1）拼寫糾錯

在英文中，最基本的語義單元是單詞，單個英文詞的拼寫和組合都可能會出現失誤，因此在英文拼寫糾錯流程中，錯誤類型可以分為兩種：Non-word Error 和 Real-word Error , 假詞錯誤和實詞錯誤。

Non-word 為拼寫為不存在的單詞，如將 “fight” 拼寫成 “fght” ；Real-word 為拼寫正確但是結合上下文語境，表達意思錯誤的情況，如 “too much ”，拼寫成 “two much”。

在中文中，最基礎的語義單元是字，用戶通過鍵盤輸入的字符不會出現錯字的情況，但是會在輸入過程中因為拼寫錯誤，出現錯意的情況，因此以拼音作為發音中文，其糾錯主要基于拼音糾錯。

拼寫糾錯包括以下步驟，首先對原query的進行相應的拼音擴展變換，得到與原query讀音相似的候選集；接下來將優選的糾錯query，與原文本進行比對，判斷是否進行拼寫糾錯、糾錯文本的優先級等；最終將決策好的結果展示給用戶。

拼音構成錯誤：拼音構成錯誤，即用戶輸入無法構字、不存在的拼音形式，多字母、少字母、錯誤輸入字母。類似于英文拼寫錯誤中的Non-word Error；如 “ag — ang” 、“uoi— ui ” 等，都為實際不存在的拼音形式。

模糊音錯誤：模糊音的錯誤，即用戶輸入為可構字正確拼音形式，受到地域性語言文化的影響，會出現前后鼻音、平卷舌音不分；對相似讀音輸入有誤等情況。類似于Real-word Error; 如 “ pin—ping ”、“nan—lan”等，都為可構詞，表意有誤的拼音形式。

2）可信度分析

原query的拼音構成與糾錯詞越接近，可信度越高；糾錯詞與原文本對比，原文本被替換的字詞越多，該糾錯詞的可信度越低；原query文本內容越短，出錯的幾率越小，糾錯詞可信度相應降低；原query在索引有結果，非不存在詞匯，糾錯詞的可信度相應降低。

可信度高的糾錯，會直接用到糾錯后的查詢詞執行本次查詢；可信度低的糾錯，還是用原查詢詞執行本次查詢。如上文舉例 “shuji” 搜索，無法準確判斷用戶意圖時，可將原關鍵詞以及糾錯后的關鍵詞，于前臺展示，由用戶做出選擇。

2.3.2.2 詞權重分析

詞權重是檢索查詢中每個詞的重要程度，將其量化為權重，權重較低的詞可能不會參與召回。

如在google中查詢“有什么懸疑小說推薦”；經過詞權重的處理，包含“懸疑小說推薦”的文檔會被保留召回。如下圖，被標紅召回的詞有 “懸疑小說”、“懸疑”、“小說” 、“推薦”。

2.3.2.3 實體識別

實體識別全稱為命名實體識別（Named Entity Recognition），簡稱NER，識別實體的邊界和類型，如文本中具有特定意義的實體，主要包括人名、地名、機構名、專有名詞等，在電商行業中包括材質、款式、尺寸規模、場景、顏色、服務、品質、影視名稱、后綴等。

確定實體邊界主要和分詞相關，發現命名實體首先需要截取部分與定義相關的特征詞，如query為 “鬼滅炭之郎同款耳飾”，NER任務從query中提取信息：

影視名稱：鬼滅之刃

人名：炭治郎

后綴：同款

品類：耳飾

目前在NER表現良好的模型基于規則、深度學習、統計學習，其在查詢實踐中，主要用于query改寫和類目預測中。

1）query改寫

Query改寫是query分析的一個重要組成部分。query改寫可以生成系列相關的query，并將選取重要性、可信度最高的一個query召回。精確召回結果數不夠時，選取相關Top querys同原始query一起參與搜索，擴大召回，得到更準確、豐富的匹配結果。

Query改寫的召回策略有基于點擊的統計、query自身、session、詞典同義，主要目的是為了學習字、短語粒度的語義信息，從而擴展到其他query；利用模型解決相關判定的問題；最后選擇原query以及重要性高的query召回。如用戶搜索 “歐美涼鞋” ，得到可信度高的改寫詞 “羅馬鞋” ，與原query一起參與召回。

query改寫會根據其重要性、優先級去選擇實體進行召回。重要性高，重要性中、重要性低的實體，在查詢配置中按照相關召回策略，召回匹配結果。

2）類目預測

電商類目中，每一件商品都會掛在某一葉子類目之下，并有多個上級類目；某些活動商品可能會從屬于多個前臺類目。

電商后臺商品的數量、類目復雜繁多，再加上用戶在電商平臺的搜索時，原query可能會出現無類目預測結果、與多個類目相關、長尾query繁多、類目重疊等情況，如用戶輸入 “紅色” ，對原query進行類目預測，可能預測出服飾、鞋包、配飾等類目。用戶輸入“男鞋”，會關聯到多個類目運動、母嬰、服飾鞋包下。

類目預測模型可選取人工方式、統計文本類目相關性、語義相關模型匹配等方式，預測用戶意圖，類目預測對用戶搜索結果可以產生較大影響。

人工方式：項目初期可以采用人工的方式配置query，提升用戶的搜索體驗。在用戶數據不是很龐大的情況下，通過統計用戶搜索、點擊等行為，統計出使用頻次高的query相關類目。

統計文本相關性：通過統計詞和類目，利用一些方法進行相關性得分、彼此關聯性的計算；從類目維度求和得出每個詞與類目之間的重要性，以及權重值。

2.3.3 排序

搜索結果排序可以說是查詢服務中的關鍵一步，決定了搜索功能的優劣和用戶的滿意程度。搜索引擎對檢索結果的排序，涉及兩個排序流程，包括基礎排序以及業務排序，即粗排和精排。

在基礎排序中主要是對相關、相似文檔的抽取排序，以及規劃業務邏輯排序所需的top n文檔數量。業務排序是更為精細化、個性化的排序策略，針對不同業務下的設計相應的評分策略，完整產品可提供給用戶的服務。

基礎排序：從大量的網頁文檔中，取出主詞對應的TOP N 個結果再進行精排；

業務排序：搜索引擎從TOP N中，經過更復雜的排序規則，將最終結果返回給用戶。

在電商搜索中，基礎排序和業務排序中的排序方法可以包括相關性排序、商品屬性排序、個性化排序。

2.3.3.1 相關性排序

使用搜索系統時，用戶希望獲得的，并非是全部的查詢結果，大量重復的信息會給用戶造成困擾。理想的排序需要使用評分函數，去評估文檔和用戶查詢之間的度量和評級，根據相關度的高低評判合理的分數值，再加上權重控制，成為最終文檔排序的依據。被使用的評分函數，包括有TF-IDF、Length Nromdeng 。

TF-IDF相關性排序：TF-IDF(Term frequency / Inverse document frequency）是一種基于信息檢索和文本挖掘的常用加權技術。TF/IDF的概念分為TF、DF、IDF介紹。

Term：Term分詞后的最小單位，如“我喜歡吃火鍋”，“我”、“喜歡”、“吃”、“火鍋”，每一個詞為一個term。

TF （Term frequency）：詞頻，即某一個給定term在該文件中出現的頻率，公式為 Nt / N ，給定term次數/總term數。TF對詞數的歸一化，防止偏向較長的文件，同一個詞語在長文件中出現的頻率高于在短文件中出現的頻率，不管該詞的重要程度。如上文中的“火鍋”的TF為1/4，TF越高該term在該文件中越重要。

DF （Document frequency）：文檔頻率，即某一個給定term在總文檔中出現的頻率，計算公式為包含給定term的文檔數/文檔的總數量 Dt/D。

IDF（Inverse document frequency）：逆文檔頻率，與DF相反，公式為 log（D / Dt），用總文檔數除以包含給定term的文檔數，再求對數。term出現的文檔數量越多，權重越小，IDF越高，信息量越大，就越能體現term的重要性。

信息量（Amount of information）：在日常生活中，極少發生的事件一旦發生是容易引起人們關注的，而司空見慣的事不會引起注意，也就是說，極少見的事件所帶來的信息量多。如果用統計學的術語來描述，就是出現概率小的事件信息量多。因此，事件出現得概率越小，信息量愈大。即信息量的多少是與事件發生頻繁成反比，即事件發生的概率為P，那么他的信息量就是 -logP。

TF-IDF將 TF*IDF 兩個值相乘，表達該term的相關性。

TF從term出現的次數、頻率這一方面，計算給定詞的重要性；IDF從信息量的角度出發，去判斷term的信息量值，兩者的乘積可以去掉一些高頻、信息量較低的詞，如“的”、“是”、“和”這類詞頻較高，信息量較少的詞。

2.3.3.2 商品屬性排序

商品屬性通常包括關鍵屬性、銷售屬性、商品屬性、普通屬性這四種，平臺可以根據自己的需求，為商品附加新的屬性描述。

本小節所提及的商品屬性包括你能想到所有與商品本身相關的特征屬性，如與商品描述相關的商品標題、商品副標題、商品詳情等；與品類相關的前后臺類目、各級分類，包括一級分類、二級分類等；與用戶行為相關的屬性，包括曝光率、下單數、瀏覽次數、用戶評論、發貨速度等，來作為評分因素影響商品的排序。其中的屬性還可以進一步細分，如用戶評論中可以細化到評論數、好評率、差評率、評論圖片數、追評率等。

用戶在搜索時，60%的用戶會選擇搜索到的前四頁推薦商品進行購買，就本人而言，在購買一些生活日消品時，會在綜合排序的topN中，篩選銷量最好的商品。

而且不同場景下的消費者，消費意圖不同，比如第二天需要出差，急需旅行用品，就會挑選距離近、配送快的商品。如何去權衡屬性分配的權重，成為搜索的難點，搜索排序排序的優化，還需要工程師們持續的投入。

2.4 搜索引導

2.4.1 聯想詞

聯想詞即我們在搜索服務中常見的下拉提示詞，主要通過前綴匹配，在用戶執行點擊搜索行為之前，猜測用戶意圖。

內容獲取：可以通過中文前綴、拼音全拼、拼音首字母簡拼查詢以及漢字加拼音、分詞前綴、中文同音別字等查詢獲取。

動態推薦：搜索框輸入內容發生變化時，下拉列表中需展示最新輸入內容的聯想詞。

如下圖：當我們輸入“xia”、“xiaji”，如圖從query候選集中選擇topN進行展示。query候選集的生成策略與用戶熱搜記錄、歷史記錄等相關，通過分析用戶的海量行為數據，結合人工運營的干預，提高用戶的搜索效率，更快幫助用戶獲得想要的內容。

2.4.2 搜索推薦

電商產品的搜索功能，在商品推薦這方面下了很大的功夫。在下單的每個環節都可以看到推薦運營的模塊，搜索框及搜索頁面中的搜索發現、熱搜、購物車中的滿折、滿減促銷、以及處處可見的商品推薦等。

搜索功能相關的推薦包括搜索發現、熱搜精選、搜索框關鍵詞，多數產品會通過智能推薦和人工干預結合的方式，完善搜索模塊的內容推薦。

通過人工干預配置搜搜關鍵詞，把搜索框當成的產品的廣告資源位管理，增加平臺廣告的曝光，是一種主動的推薦方式；使用數據分析，個性化展示，可以根據用戶特征、興趣愛好，實時更新改，可以稱呈現給用戶更多相關內容，相比較而言，為被動的推薦方式。

2.4.3 相關搜索詞

相關搜索詞區別于搜索前的引導，是用戶點擊搜索之后，猜測用戶想要搜索什么，相比較來說，相關搜索更類似于推薦系統。在網頁查詢中經常可以見到相關搜索的推薦，當通過某個關鍵詞無法精準獲得內容時，可用相關搜索推薦補充和擴展。如下圖為在谷歌中搜索“百度”的相關搜索信息示例。

相關搜索從深度、廣度兩個方面去幫助用戶找到所需的內容，可以更加精確地找到商品，以及擴展商品范圍，找到更多的商品。從深度出發會應用到相似于搜索排序相關的算法模型，從廣度出發，即使用query擴展，從而延伸出更寬范圍的、貼合用戶意圖的詞匯。

三、前臺頁面

1. 搜索入口類型

我們所見的頁面搜索入口有以下幾種類型，最為常見的頂部搜索框、懸浮搜索入口、底部tab搜索入口、居中搜索框。

2. 搜索頁面-輸入搜索詞

輸入搜索詞時，搜索頁面展示模塊有搜索提示詞、平臺熱門搜索詞、用戶歷史搜索記錄、輸入文本后的下拉框聯想詞等。

3. 搜索結果頁面

點擊搜索按鈕后，頁面返回搜索結果，可在頁面設置其他模塊包括關鍵詞推薦、搜索過濾tab欄等。

4. 特殊搜索情景

頁面特殊搜索情景包括搜索異常、標簽用戶搜索等，如搜索無結果、網絡異常、新用戶搜索、會員用戶搜索等。

四、后臺頁面

1. 搜索關鍵詞管理

管理熱門關鍵詞、口令關鍵詞、搜索提示詞三種類型關鍵詞。熱門關鍵詞、搜索提示詞可通過系統算法推薦，三種類型的關鍵詞接口由運營人員維護、查看。

2. 搜索關鍵詞維護

后臺需要運營的搜索關鍵詞復雜繁多，包括有錯詞維護、停用詞維護、聯想詞維護、新詞維護等。

1）錯詞維護

2）停用詞維護

3）聯想詞維護

4）新詞維護

五、化繭成蝶

1. 封閉與開放

一方面，互聯網的開放性是搜索公司的重要生存基礎；另一方面，如果各互聯網企業各自建立信息群島，不管是對于互聯網企業本身還是對于用戶來說，都毫無疑問利大于弊。但不管是物理世界還是網絡世界，開放將是最終訴求。

“每個產品都有面對海量用戶的機會”，這樣的機會使得各大巨頭公司修建自己的護城河，將用戶圈守在自己的高墻中，減小用戶面對其他產品的機會，建立起互聯網時代的“信息群島”。

不同產品一邊深植于自己的專業領域，獲取用戶信任；一邊構建自己的信息壁壘，防止用戶的流失。對于用戶來說，產品的信息聚合會提供更專業的內容和服務，激烈的市場競爭也催生出不斷升級的使用體驗。短期利好彼此，卻不是長線發展的趨勢。

哈佛大學教授凱·R·桑斯坦在《信息烏托邦：眾人如何生產知識》中提出信息繭房的概念；意指在信息傳播中，公眾的信息需求不是全方位的，會將更多的注意力集中于自己的選擇以及使自己感到愉悅的領域，久而久之，將自身禁錮于“繭房”之中。即背離多元性的個性化推薦，迎合了用戶的偏好，但會使我們越來越沉浸于自己想看、想表達的內容，因而造成信息封閉。

信息封閉帶來的消極影響，會使個體走向極端，從而對整個種族和文化產生“退化”式的影響，塔斯馬尼亞島效應我我們提供了現實發生的案例。塔斯馬尼亞的島民在封閉的環境下，逐漸封閉了自己的思維，慢慢地丟失了先進的工具、技能。在此情況下，文明開始走向退化，族群也漸漸回歸原始。

信息繭房和塔斯馬尼亞島效應在某些角度講述的是一個故事。信息繭房聚焦到“用戶”特征的個人本身，認為“人的自我”是在與他人、社會的互動中實現的。

當個人興趣成為探索外界的唯一意向，會失去精神世界的多元化，朝著定向單線發展，最終被“極化”，警示我們，海量推薦信息沖擊下的我們，容易走向極端與封閉；而塔斯馬尼亞島效應從種族、文明的角度，講述了社會交流被封閉后，傳承遺失，文明退化的真相，警醒我們，自我封閉的帶來的嚴重后果。

當然，很少部分的人會將自己置于自我封繭的境地，我們所熟知的文明也不會發生突然的斷裂和極端的退化。

在信息洪流的今天，我們也不是全然被動地接受。正如那些年讀過的思修所言，我們是能動的個體，隨著科技的發展，自身也在主動地去適應時代的改變。

2. 化繭成蝶

信息變得廉價時，注意力就變得昂貴了。各種信息我們似乎即刻可觸及，我們仿佛處于全能全知的境地。這種富足的窘境，無疑再次提醒了我們，信息不是知識，知識不是智慧。

任何答案都觸手可得的今天，我們似乎越發無法確認，到底需要什么——每天從清晨到夜晚歸家，忙碌的穿梭于不同軟件提供的資訊中，工作、購物、娛樂...碎片化的消費內容，將我們的時間分散，同時分散的還有我們的注意力；也常常感慨于 “從前車馬慢，一生愛一人”，也曾驚嘆于巨匠對文明的貢獻。

信息的發展讓大眾可以平等、自由地獲取到信息，卻也剝奪了先賢般的定力。

時代的車輪滾滾向前，無論哪個時期，如何辨識且讀懂信息，似乎沒有其他便捷的方式。至始至終“化繭為蝶” 的關鍵還在于我們自身。

保持開放的心態，切勿落入自縛的境地；在信息中汲取知識，在知識中獲得智慧。

人生不易，珍惜擁有，感謝經歷。

“Let's save the future!”

總結

以上是生活随笔為你收集整理的搜索介绍 | 当你搜索时，发生了什么？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：学会这10种定时任务，有点飘了...
下一篇：巨量广告放量计划高级使用技巧干货