當前位置：首頁 >

阿里云峰会 | 统一召回引擎在搜索场景的应用实践

發布時間：2024/9/3 78 豆豆

生活随笔收集整理的這篇文章主要介紹了阿里云峰会 | 统一召回引擎在搜索场景的应用实践小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介：淘寶每次的搜索行為在后端都會有大量的數據計算和處理才會召回符合用戶需求的搜索結果，當面對的業務越來越多如何在工程體系上不斷演化滿足不同業務的需求？特邀阿里巴巴技術專家介紹統一召回引擎，帶你了解如何應對~

特邀嘉賓：

項昭貴（項公）-阿里巴巴高級技術專家

視頻地址: https://summit.aliyun.com/2021/session/689

AI Online Serving工程體系

阿里自研的整套搜索工程體系-AI Online Serving體系，目前支撐起海內外阿里電商全部的搜索、推薦、廣告業務，時刻置身大數據主戰場，引導成交占據集團電商大盤主體；此外，作為中臺技術中堅，AI·OS已是包括電商、阿里云、優酷、菜鳥、盒馬、釘釘等等在內全集團的基礎設施，更為重要的是，AI·OS體系的云產品（開放搜索和智能推薦）矩陣通過阿里云服務于全球開發者，在穩定性和工程效率上都是行業領先水平。

統一召回引擎

統一引擎架構及演化過程

左圖是搜索引擎HA3和推薦引擎BE的不同執行流程，我們將各引擎功能抽象成算子，把基礎功能形成公共算子庫，用戶可以直接復用和根據業務需求開發，形成右圖的Suez框架。

統一召回引擎的特點

1.查詢流程DAG化

與深度學習執行引擎統一
搜索功能抽象成算子
統一算子庫，支持算子粒度的復用和開發

2.多種查詢表達方式

SQL
TuringSDK

等.....

可以靈活定制執行流程，加速業務迭代速度

統一召回引擎的應用實踐

召回引擎面臨的挑戰

既要，又要，還要

數據膨脹：文檔數據，算法數據

深度學習的應用：召回，粗排，精排

穩定高效：高可用，時效性，低延遲

傳統解決方案及問題

數據規模膨脹體現在數據維度越來越多。例如電商搜索領域以前只考慮商家、商品兩個維度，現在還需要考慮物流、位置等維度。傳統引擎處理把這些數據在離線處理join成一張大寬表推給在線做索引構建和查詢服務，這會有個問題，很可能出現一個輔表數據更新導致大量的主表數據更新，從而出現寫數據擴大的問題，對在線服務的時效性有很大的挑戰，在一些場景上很難得到滿足，尤其大促場景很難滿足要求低延遲高時效的需求。

傳統解決方案：

將數據按一定維度拆分通過多個引擎實例去提供服務，由業務方來將一次查詢拆分成多個請求訪問多個引擎，實現搜索結果。

存在的問題：

出現大量數據的序列化；

數據可能會有截斷，導致效果受損；

例如外賣平臺搜索，發現想搜索的店鋪因為配送時間或距離原因沒有match上，導致意圖搜索菜單沒有體現，用戶體驗不佳；

數據規模膨脹另一個體現是數據量變大，數據量變大導致單個搜索加載提供查詢的時間變多。

傳統解決方案：

一個是將索引進行擴裂，可能帶來請求的拆分和結果的合并，隨著個數越來越多，耗時越來越大，逐漸成為技術瓶頸。另一個是當搜索個數多時，整個集群的穩定性和可用性受到損害，對用戶而言存在查詢結果不穩定情況。

統一召回引擎解決方案

引擎支持多張表

通過一個引擎里面在線同時加載多張表，每張表的索引構建、更新、切換、加載都是獨立的；
查詢時通過在線多表join方式，可以在一次查詢時拿到全局的信息，包括店鋪信息，商品信息都能得到充分運用，匹配最符合用戶需求的召回結果；

采用SQL表達查詢流程

開發者使用簡單
復用SQL生態基礎功能

3.并行查詢，降低延遲的利器

把索引數據按一定維度切分，在處理用戶的查詢請求時可以根據不同的切分并行的查詢，從而降低整個查詢的延遲，也避免了通過擴裂的方式帶來的問題。

4.向量召回，深度學習在召回階段應用

在信息豐富的今天，我們的查詢引擎光靠文本查詢很難滿足業務的需求

采用達摩院自研的向量檢索內核-Proxima，具有超大規模數據向量索引的構建，提供高性能的在線向量檢索能力；
在原來文本召回基礎上，增加向量召回，可以實現對文檔召回率和準確率的兼顧，同時可以在每一路排序里面進行較好的靈活配置，取得好的搜索效果

統一召回引擎在推薦場景的應用

打造個性化推薦效果的召回引擎

統一召回引擎的云上實踐

阿里云開放搜索

開放搜索（OpenSearch）是基于阿里巴巴自主研發的大規模分布式搜索引擎搭建的一站式智能搜索業務開發平臺，通過內置各行業的查詢語義理解、機器學習排序算法等能力，提供充分開放的引擎能力，助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務。

開放搜索在電商行業應用

電商行業搜索產品化落地，用戶無需各方向技術探索，只需按模板接入即可擁有更優搜索服務；
內置更高質量算法模型，免去大量的數據標注與模型訓練工作，直接內置淘系搜索算法能力；
支持個性化搜索與服務能力，通過引擎側的多路召回能力，實現搜索結果、下拉提示、底紋詞等重要服務；
支持用戶自行訓練的NLP模型導入開放搜索，靈活滿足業務開發者需求；
阿里巴巴自研引擎系統，處理海量數據、高并發、海量用戶請求，性能優于開源方案；
根據電商行變化，不斷迭代更新原有能力，提供更高時效性的服務保障；

開放搜索在教育搜題場景應用

支持文本索引、圖片向量索引、公式索引多路召回結果，降低文本搜題、拍照搜題場景的無結果；
教育查詢分析全套能力，解決準確率較低問題，可定制排序腳本，深度優化召回結果排序效果；
用戶靈活配置的向量+文本召回，快速提升搜索系統效果；
排序插件開發-Cava語言，更強的定制能力，更易于維護，輕松實現業務排序需求；
按量付費，即時生效，保障高峰期搜索穩定同時，不需要提前購買大量資源，無成本負擔；
支持千億體量數據搜索的毫秒級響應，實時數據更新秒級可見。

原文鏈接：https://developer.aliyun.com/article/784579?

總結

以上是生活随笔為你收集整理的阿里云峰会 | 统一召回引擎在搜索场景的应用实践的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何用钉钉宜搭制定企业疫情防控数字化管理
下一篇： Hologres揭秘：高性能原生加速Ma