算法专家解读 | 开放搜索教育搜题能力和实践
講師:徐光偉(昆卡)--阿里云達(dá)摩院算法專家
視頻地址:https://developer.aliyun.com/live/246649
教育搜題解決方案地址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
開放搜索簡介-引擎優(yōu)勢
開放搜索(OpenSearch)是基于阿里巴巴自主研發(fā)的大規(guī)模分布式搜索引擎搭建的一站式智能搜索業(yè)務(wù)開發(fā)平臺,通過內(nèi)置各行業(yè)的查詢語義理解、機(jī)器學(xué)習(xí)排序算法等能力,提供充分開放的算法及引擎能力,助力開發(fā)者快速搭建更高性能、更高搜索基線效果的智能搜索服務(wù)。
其搜索引擎采用阿里自研的整套搜索工程體系-AIOS系統(tǒng),支撐著阿里系包含淘寶、天貓、lazada、閑魚、優(yōu)酷、菜鳥、盒馬等全部的搜索場景,在穩(wěn)定性和工程效率上都是行業(yè)領(lǐng)先水平。開放搜索簡介-算法優(yōu)勢
開放搜索(OpenSearch)在算法上集成達(dá)摩院NLP(自然語言處理)團(tuán)隊的核心技術(shù),NLP Foundations 中的詞法分析、句法分析、語義分析、文本分析、deep learning 技術(shù)都處于業(yè)界領(lǐng)先。通過對各行業(yè)智能語言處理的深入研究,在開放搜索的行業(yè)應(yīng)用中產(chǎn)品化落地。
教育搜題-業(yè)務(wù)背景
近幾年在線教育行業(yè)飛速發(fā)展,根據(jù)2020中國移動互聯(lián)網(wǎng)教育學(xué)習(xí)APP行業(yè)月活用戶規(guī)模TOP10的統(tǒng)計,月活前十中針對K12教育的APP有6個,具備搜題場景的APP有5個;說明了搜題功能在教育行業(yè)的的重要性。
(數(shù)據(jù)來源:QuestMobile<2020中國移動互聯(lián)網(wǎng)年度大報告>)
工具型的產(chǎn)品能力,它是用來幫助產(chǎn)品獲得大量的用戶和流量,從而為其他的業(yè)務(wù)提供變現(xiàn)能力。在線教育行業(yè)中拍照搜題作為產(chǎn)品掠取流量最重要的工具,抓住了家長、學(xué)生輔導(dǎo)和解題上需求,為其他的業(yè)務(wù)變現(xiàn)提供源源不斷的流量。正是由于這樣的定位,搜題的準(zhǔn)確性和效率變得更加重要,將直接影響品牌的口碑和用戶粘性。
教育搜題-業(yè)務(wù)特點
海量題庫
客戶的題庫一般都是千萬甚至億級別,而且還在快速持續(xù)的增長。同時搜題業(yè)務(wù)存在比較明顯的高峰現(xiàn)象。在平時的晚上787到8點,尤其是周末的最后一天或者是節(jié)假日的最后一天。QPS存在很明顯的高峰,具備高彈性和低延遲的云搜索,云搜索能力就成為了客戶的首選。
場景豐富
搜題的場景越來越豐富,涵蓋不同的年級,比如低年級出現(xiàn)比較多的像看圖識字、連線題等,這種需要圖片信息的,還有包含不同的學(xué)科,現(xiàn)在已有的學(xué)科已經(jīng)超過10個,這些豐富的場景都會對搜索效果產(chǎn)生影響。
算法需求
因為搜集產(chǎn)品一般只會展現(xiàn)top 3到top5的1個結(jié)果,對于準(zhǔn)確性的要求極高,同時還會依賴一些多模態(tài)和多元的算法能力來解決圖文搜索和多元處理的需求。
開放搜索如何提供精準(zhǔn)高效、穩(wěn)定的一站式搜題解決方案
- 左邊:用戶拍照題目,經(jīng)過OCR識別之后的文本,通過中間的開放搜索(OpenSearch )引擎得到Top 3-5的召回結(jié)果進(jìn)行展示;
- 右邊:客戶題庫,開放搜索會嚴(yán)格保證客戶數(shù)據(jù)的安全和隱私;
- 中間:開放搜索(Open Search )引擎部分包含了文檔召回、排序定制和干預(yù)功能三大模塊;
開放搜索Query處理流程
查詢語義理解
案例說明:
教育搜題定制分詞器
搜題場景分詞難點:
解決方法:
- 針對第一個問題,收集千萬級K12英文語料訓(xùn)練語言模型,即便對超長的英文連寫也可以精準(zhǔn)切分;
- 針對第二個問題,利用開放搜索自帶的分詞干預(yù)能力將latex表示中的運算符號預(yù)處理;? ?
類目預(yù)測-學(xué)科、題型分類
什么是類目預(yù)測?
? 簡單來說,用戶輸入一個query,查詢得到一批商品,通過計算每一個商品所屬的類目與query之間的相關(guān)度,只要商品的排序公式中引用了這個相關(guān)度,那么對于這個商品來說,它所屬的類目與query的相關(guān)度越高,它的排序公式的計算結(jié)果就獲得了越高的排序得分,從而這個商品就會排在越前面。
教育行業(yè)中的應(yīng)用
- 結(jié)合輸?的圖?信息和OCR識別之后的結(jié)果預(yù)測輸?題?的學(xué)科類別、題目類型;
- 預(yù)測各?本?段的字段類型(題干描述、選項等等);
詞權(quán)重分析
功能介紹:該功能主要分析了查詢中每一個詞在文本中的重要程度,并將其量化成權(quán)重,權(quán)重較低的詞可能不會參與召回。這樣可以避免當(dāng)用戶輸入的查詢詞中包含一些權(quán)重低的詞時,仍然按用戶輸入的查詢詞限制召回,導(dǎo)致命中結(jié)果過少。
功能用途: Query丟詞、改寫、文本相關(guān)性分析;
1. 基于用戶行為生成訓(xùn)練數(shù)據(jù)
首先是基于querydock 點擊行為去構(gòu)建點擊圖,然后利用vpc 計算法得到TOM 之間的一個重要度偏訓(xùn)
2. 詞權(quán)重模型訓(xùn)練
- 在進(jìn)行規(guī)劃之后得到訓(xùn)練數(shù)據(jù)利用序列標(biāo)注模型去預(yù)測每一個特用的權(quán)重;
- 預(yù)測標(biāo)簽(7,4,1), 分值越?表?term的重要性越?, 召回結(jié)果更準(zhǔn)確;
示例:
Query改寫-干預(yù)功能
開放搜索除了已經(jīng)內(nèi)置的這些算法能力同時還支持用戶的批量干預(yù)::詞典、拼寫糾錯,同義詞,詞權(quán)重等;
示例:
教育搜題排序定制
系統(tǒng)開放了兩階段排序過程:基礎(chǔ)排序和業(yè)務(wù)排序,即粗排和精排;基礎(chǔ)排序即是海選,從檢索結(jié)果中快速找到質(zhì)量高的文檔,取出TOP N個結(jié)果再按照精排進(jìn)行精細(xì)算分,最終返回最優(yōu)的結(jié)果給用戶。為了實現(xiàn)更細(xì)粒度的排序效果,結(jié)合排序表達(dá)式(Ranking Formula)可以為應(yīng)用自定義搜索結(jié)果排序方式 。
多路召回-語義向量召回
為什么搜題要做多路召回?
教育拍照搜題場景相比網(wǎng)頁/電商的文本搜索有顯著差異:
- 搜索query特別長:常規(guī)檢索term數(shù)上限30,搜題需要放到100;
- 搜索query是由拍照OCR識別之后得到的文本,關(guān)鍵term的識別錯誤會嚴(yán)重影響召回排序;
純文本查詢方案
1. OR邏輯查詢
- 為了降低無結(jié)果率,搜題客戶常見的系統(tǒng)是基于ES默認(rèn)的OR邏輯,latency高,計算消耗大;
- OpenSearch也支持OR邏輯,針對latency高可以通過并行seek的方式優(yōu)化,但整體計算消耗仍然高;
2. AND邏輯查詢
- 采用通用的query分析模塊,無結(jié)果率高,整體準(zhǔn)確性不如OR邏輯;
- 針對教育領(lǐng)域優(yōu)化定制的query分析模塊,大幅提高效果,準(zhǔn)確性接近OR邏輯;
如何去兼顧計算消耗和搜索準(zhǔn)確性那?我們在此引入了文本向量檢索
文本向量檢索
目標(biāo):通過文本向量檢索擴(kuò)召回,結(jié)合AND邏輯查詢,做到latency和計算消耗低于OR邏輯的情況下準(zhǔn)確性更高;
向量召回采用目前最先進(jìn)的BERT模型,其中針對教育搜題做的特別優(yōu)化有:
- BERT模型采用達(dá)摩院自研的StructBERT,并針對教育行業(yè)定制模型;
- 向量檢索引擎采用達(dá)摩院自研的proxima引擎,準(zhǔn)確性和運行速度遠(yuǎn)超開源系統(tǒng);
- 訓(xùn)練數(shù)據(jù)可以基于客戶的搜索日志不斷積累,效果持續(xù)提升;
這個圖我們可以看到有一項召回,在召回率上已經(jīng)達(dá)到凹邏輯。同時在準(zhǔn)確性上現(xiàn)在超出2邏輯3到5個點,整體的召回到數(shù)減少40倍的情況下,latency 可以降低10倍以上。
效果:
多路召回-文本向量多路召回
多路召回優(yōu)勢:
? ?文本召回和語義向量召回的結(jié)合在搜題場景已經(jīng)驗證有效,開放搜索的多路召回架構(gòu)還將有更多的使用空間:圖片向量召回、公式召回、個性化召回。
? ?除了開放搜索內(nèi)置的向量模型,我們也將支持客戶自己的向量索引,歡迎客戶和我們一起深耕搜題算法優(yōu)化。
搜題案例效果展示
案例1:搜題query:"張慧研所指與小磁大概相近的是樂府之音
案例2:搜題Query: “如圖是由一些相同的小正方體搭成的幾何體從三個不同方向看得到的形狀圖,則搭成這樣的幾何體需要__個小正方體
最佳實踐 – 開放搜索對比開源/自建優(yōu)勢
1、某K12教育客戶: 某在線教育平臺,主打K12教育,用戶數(shù)千萬級別,題庫量8千萬左右且持續(xù)增加,由自建題庫和第三方題庫兩部分組成,之前通過OCR+自建ES搜索服務(wù)實現(xiàn)拍照搜索功能,面臨的主要問題是搜索準(zhǔn)確率待優(yōu)化提升,降低搜索延遲等問題。
客戶反饋:
- 搜題準(zhǔn)確率絕對值提升5%;
- 延時從100ms-300ms降到穩(wěn)定50ms;
- 離線數(shù)據(jù)同步大于4000TPS;
2、某高職教育客戶:某聚焦在大學(xué)生搜題領(lǐng)域的在線教育公司,產(chǎn)品DAU300W,月活1000W,業(yè)務(wù)高峰期日均搜題PV過億。
客戶反饋:
- 對比自建系統(tǒng)高峰搜索耗時>2s,開放搜索穩(wěn)定搜索耗時50ms,同比下降40倍;
- TOP5題目搜索準(zhǔn)確率平均提升2.4%;
- 搜索無結(jié)果率從高于40%降低至不到1%;
- 業(yè)務(wù)高峰期秒級平滑擴(kuò)容,解決高并發(fā)搜索需求;
如果您對搜索與推薦相關(guān)技術(shù)感興趣,歡迎加入釘釘群內(nèi)交流
【開放搜索】新用戶活動:阿里云實名認(rèn)證用戶享1個月免費試用
https://free.aliyun.com/product/opensearch-free-trial
原文鏈接:https://developer.aliyun.com/article/783591?
版權(quán)聲明:本文內(nèi)容由阿里云實名注冊用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報,一經(jīng)查實,本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的算法专家解读 | 开放搜索教育搜题能力和实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 事务消息应用场景、实现原理与项目实战
- 下一篇: 应用上线前的“体检”,你知道需要检测哪些