阿里云峰会 | AI搜题加速在线教育行业场景创新
分享人:徐光偉(昆卡) 阿里巴巴達(dá)摩院算法專家
了解更多解決方案詳情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
搜索是在線教育企業(yè)流量獲取的利器
截至2020年12月份教育行業(yè)月活TOP10的統(tǒng)計,其中具備搜題能力的軟件多達(dá)5個,拍照搜題作為產(chǎn)品能力,可以幫助客戶獲取大量用戶以及流量,從而為其他產(chǎn)品提供變現(xiàn)能力,正是由于這樣定位,拍照搜題整體準(zhǔn)確性和搜索效率都成為至關(guān)重要的一點(diǎn),所以開放搜索對此做了很多訂制優(yōu)化。
教育搜題業(yè)務(wù)特點(diǎn)
對于教育搜題業(yè)務(wù)場景歸納了三大特點(diǎn):
第一點(diǎn)海量題庫,教育題庫都是屬于千萬級別甚至到億級別,而且不斷的持續(xù)增長;同時搜題業(yè)務(wù)存在很明顯的高峰現(xiàn)象,例如晚上七八點(diǎn),節(jié)假日最后一天,這時搜題會存在非常高的QPS的波峰;搜索延遲會嚴(yán)重影響用戶的體驗(yàn)。
第二點(diǎn)場景豐富,拍照搜題涵蓋的場景越來越豐富,包括不同的年齡段,例如低年級搜題主要圍繞拍照看圖識字或連線題,需要更多的圖片信息的題目;還包括不同的學(xué)科,目前支持的學(xué)科多達(dá)十多種,因此豐富的場景就會對搜索效果帶來更大的挑戰(zhàn)。
第三點(diǎn)算法需求,拍照搜題產(chǎn)品形態(tài)一般只會展現(xiàn)TOP3或者TOP5的結(jié)果,正是因?yàn)檫@樣設(shè)定,準(zhǔn)確性對于拍照搜題來說至關(guān)重要,同時拍照搜題還會涉及到多模態(tài)和多語言處理能力,解決圖文搜索和多語言處理的需求。
開放搜索教育搜題方案架構(gòu)
阿里云開放搜索的拍照搜題解決方案,當(dāng)用戶通過拍照經(jīng)過OCR識別之后的文本,經(jīng)過開放搜索引擎處理后會返回TOP3-5的結(jié)果給用戶得到展示,并且針對企業(yè)題庫數(shù)據(jù)嚴(yán)格保證數(shù)據(jù)的安全和隱私。
教育搜題算法能力
查詢分析算法優(yōu)化完整的處理流程
教育行業(yè)分詞和學(xué)科類目預(yù)測
分詞在拍照搜題場景下存在兩大難點(diǎn),第一點(diǎn)英文題目OCR識別之后空格缺失,左邊第一個圖可以看到,即便針對很長沒有空格的英文文本,模型也是可以非常準(zhǔn)確的做正確的切分。第二個難點(diǎn)是數(shù)學(xué)題目公式表示之后的切分,左邊第二個圖可以看到數(shù)學(xué)符號部分都做出正確的切分。
類目預(yù)測在拍照搜題場景下對應(yīng)的就是學(xué)科的預(yù)測和題型的預(yù)測,我們結(jié)合圖片以及OCR識別之后的文本信息做多模態(tài)預(yù)測,從而提高搜題準(zhǔn)確率。
多路召回排序技術(shù)
由于拍照搜題業(yè)務(wù)場景的特殊性,開放搜索還引入了多路召回排序技術(shù)。
為什么要做多路召回呢?
教育拍照搜題相比傳統(tǒng)的網(wǎng)頁或者電商的搜索存在明顯的差異,第一點(diǎn)是搜索的Query特別長,第二點(diǎn)是搜索的Query由拍照OCR識別之后得到的文本,其中關(guān)鍵TERM識別錯誤的話,就會嚴(yán)重影響召回排序。
傳統(tǒng)的純文本查詢方案包括兩種,第一種是OR邏輯查詢,第二種AND邏輯查詢,AND邏輯查詢上基于我們剛才說到的針對教育領(lǐng)域優(yōu)化定制的Query模塊分析之后大幅提高效果,現(xiàn)在可以做到準(zhǔn)確性接近OR邏輯。
如何兼顧搜索計算開銷以及搜索的準(zhǔn)確率呢?
引入了文本的向量召回,對文本向量召回技術(shù)優(yōu)化了三點(diǎn),
第一點(diǎn)是其中的BERT模型我們采用達(dá)摩院自研的StructBERT,并針對于教育行業(yè)做了定制,同時對BERT模型做壓縮加速。
第二點(diǎn)是向量檢索引擎采用達(dá)摩院自研的Proxma引擎,準(zhǔn)確性和速度都超越開源系統(tǒng)。
第三點(diǎn)訓(xùn)練數(shù)據(jù)可以基于客戶的搜索日志不斷積累,效果持續(xù)提升。
從右邊的圖可以看到,最終我們在基于兩側(cè)的BERT模型就可以達(dá)到非常好的效果,準(zhǔn)確性超過OR邏輯3%—5%,整體召回DOC數(shù)量減少40倍,Latecy降低10倍以上。
搜題效果展示
舉例兩個具體搜題的case,左邊這個case可以看到其中因?yàn)閱栴}中的文字描述和題庫中文字描述不一致,傳統(tǒng)搜索引擎返回的結(jié)果相關(guān)性極差,經(jīng)過我們引入語意向量召回之后右邊TOP3結(jié)果完全符合題意。第二個case因?yàn)檫@個題目中包含圖片的信息,傳統(tǒng)的搜索引擎無法做到準(zhǔn)確的召回,基于我們多路召回引入圖象信息之后TOP1返回完全一致的題目。
開放搜索解決方案優(yōu)勢
案例一:某K12的教育用戶,用戶數(shù)達(dá)到千萬級別,題庫量在八千萬左右而且在持續(xù)增加,客戶接入開放搜索之后返回搜題準(zhǔn)確率提升45%,延遲降到50%毫秒。
案例二:某高職教育客戶,產(chǎn)品DAU三百萬,月活一千萬,客戶接入之后反饋對比他們原先自建的系統(tǒng),在高峰時候耗時大于兩秒,現(xiàn)在開放搜索可以穩(wěn)定在50毫秒,同比下降40倍。TOP5題目搜索準(zhǔn)確率提升2.4%搜索結(jié)果從原來40%降到不到1%,業(yè)務(wù)高峰期可以實(shí)現(xiàn)秒級平滑擴(kuò)容。
獲得專家指導(dǎo):
https://survey.aliyun.com/apps/zhiliao/6R4u6vilI
原文鏈接:https://developer.aliyun.com/article/784459?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報,一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的阿里云峰会 | AI搜题加速在线教育行业场景创新的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云弹性计算产品负责人:让客户用上本地
- 下一篇: “‘天池·TEENTOP杯’AI少年挑战