當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

专心做搜索也能登顶CLUE分类榜？在快手做搜索是一种怎样的体验

發(fā)布時(shí)間：2024/7/5 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了专心做搜索也能登顶CLUE分类榜？在快手做搜索是一种怎样的体验小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | 快手搜索

短視頻和直播，越來越成為重要的內(nèi)容供給形式，而內(nèi)容供給側(cè)的改變，也在潛移默化地推動(dòng)著用戶搜索習(xí)慣的變化。據(jù)報(bào)道，截止今年4月，超過50%的用戶都在使用快手搜索功能，每天搜索達(dá)到2.5億次，每天有超百萬部作品被用戶搜索到，截止今年8月，快手搜索日均搜索次數(shù)超過3億，用戶利用快手搜索的習(xí)慣似乎在逐步養(yǎng)成。

▲圖1 快手上的短視頻案例

區(qū)別于傳統(tǒng)的網(wǎng)頁搜索，在快手的短視頻搜索場景中的主要挑戰(zhàn)為：

主要內(nèi)容是短視頻

網(wǎng)頁的主要信息載體為文字，往往具備比較豐富的上下文描述，而相對來說，短視頻的表達(dá)載體更加多元化，一部分上下文信息可以通過視覺或者聽覺的方式傳遞給用戶，而不再需要額外的文本描述，最終導(dǎo)致短視頻的文本信息往往相對網(wǎng)頁來說更加短小精悍；上下文的缺乏，就對模型的文本語義刻畫能力和多模態(tài)理解能力有了更高的要求。

較顯著的社區(qū)特性

快手搜索的內(nèi)容生產(chǎn)者和消費(fèi)者，都帶有比較顯著的社區(qū)特性：由于快手更加強(qiáng)調(diào)其社交屬性，用戶在日常的相互溝通和討論中，往往會(huì)產(chǎn)生一系列這個(gè)社區(qū)內(nèi)獨(dú)有的“黑話”，這些社區(qū)文化的產(chǎn)生，一定程度上就會(huì)造成相同的文字在快手社區(qū)內(nèi)和全網(wǎng)范圍內(nèi)，表義完全不同的現(xiàn)象，例如：同樣是搜索“禮物”，在傳統(tǒng)搜索引擎中，獲取到的往往是例如“禮物如何購買”，“禮物推薦”等相關(guān)內(nèi)容，而在快手社區(qū)內(nèi)，term“禮物”還有另一層含義，就是網(wǎng)紅“小禮物”，這類具有特色的社區(qū)文化，就會(huì)使得一些開源的模型和算法，在實(shí)際場景中難以發(fā)揮出較強(qiáng)的作用。

▲圖2 快手網(wǎng)紅小禮物

破圈挑戰(zhàn)

滿足社區(qū)內(nèi)需求的同時(shí)，也需要不斷應(yīng)對破圈過程中的各種挑戰(zhàn)：用戶規(guī)模的不斷增加和搜索需求的不斷增加，就需要相應(yīng)的搜索算法能夠未雨綢繆，想辦法具備更強(qiáng)的泛化能力，能夠同時(shí)處理社區(qū)內(nèi)（in-domain）和社區(qū)外（out-of-domain）的不同輸入和信息，從而達(dá)到為整體業(yè)務(wù)破圈保駕護(hù)航的作用。

PERKS

為了應(yīng)對上述挑戰(zhàn)，快手搜索的NLPers針對快手搜索場景，打造了一套更加全面的模型評估體系，同時(shí)涵蓋了內(nèi)部業(yè)務(wù)數(shù)據(jù)集和外部公開數(shù)據(jù)集，以此來模擬對in-domain任務(wù)和out-of-domain任務(wù)的處理能力，同時(shí)，面向快手搜索業(yè)務(wù)特點(diǎn)，打造了一個(gè)具有快手搜索特色的預(yù)訓(xùn)練語言模型：PERKS（Pre-trained Embedding Representation for Kuai Search），相比于其他開源的預(yù)訓(xùn)練語言模型，PERKS在技術(shù)上具有以下特點(diǎn)：

數(shù)據(jù)準(zhǔn)備層面

分別收集了TB級別的內(nèi)部和外部語料，其中，內(nèi)部語料包括視頻中文字標(biāo)題，高置信度的視頻ocr識(shí)別結(jié)果，和高置信度的視頻asr識(shí)別結(jié)果，該視頻的相關(guān)評論和點(diǎn)擊query，通過視覺學(xué)習(xí)到的視頻tag等文本內(nèi)容，并通過文字出現(xiàn)的位置和時(shí)間等信息，將一個(gè)視頻中的文字組織成一個(gè)文檔，以便于進(jìn)行訓(xùn)練。外部語料中，除了常見的開源百科數(shù)據(jù)，還包括一些開源的新聞網(wǎng)站內(nèi)容。經(jīng)過各種預(yù)處理過濾掉不置信內(nèi)容，去除冗余信息后，一個(gè)高質(zhì)量，同時(shí)包含內(nèi)部特色和外部特色的數(shù)據(jù)集就構(gòu)造出來了。

訓(xùn)練任務(wù)層面

為了讓模型能夠同時(shí)學(xué)習(xí)到不同領(lǐng)域，不同粒度的語言知識(shí)，參考MMOE思想，設(shè)計(jì)了一個(gè)多階段，多任務(wù)的學(xué)習(xí)模式，包括，第一階段（pre-pretrain）使用百科數(shù)據(jù)學(xué)習(xí)Masked Langauge Model（采用了dynamic whole-word-masking），去學(xué)習(xí)基礎(chǔ)的語言知識(shí)。

二階階段（pre-train），使用內(nèi)部語料和外部語料進(jìn)行混合，并且將訓(xùn)練任務(wù)擴(kuò)展為：dynamic-whold-word-masking，char-reorder，knowledge-masking（通過百科和內(nèi)部關(guān)鍵實(shí)體識(shí)別技術(shù)，對齊到的知識(shí)信息進(jìn)行mask），important-whole-word-masking等，并在這個(gè)階段引入sentence-order-prediction，sentence-distance-prediction，sentence-source-prediction（這段文本是來自于ocr，asr，網(wǎng)頁數(shù)據(jù)，還是其他部分）等任務(wù)，用于刻畫句子級知識(shí)，通過課程學(xué)習(xí)的方式，在訓(xùn)練過程中逐步調(diào)整不同任務(wù)的配比，讓模型逐漸學(xué)習(xí)到更具有挑戰(zhàn)的知識(shí)。

經(jīng)過第二階段，模型就學(xué)習(xí)到了一個(gè)比較大而全面的通用語言知識(shí)。在最終階段（post-pretrain），PERKS會(huì)針對下游任務(wù)的特點(diǎn)，對in-domain和out-of-domain的語料，進(jìn)行不同比例的采樣，并根據(jù)當(dāng)前下游任務(wù)是處理word-level還是sentence-level任務(wù)的特點(diǎn)，對于訓(xùn)練任務(wù)進(jìn)行調(diào)整，并在一個(gè)精選數(shù)據(jù)上，進(jìn)行微調(diào)，例如針對ANN召回任務(wù)和雙塔語義模型，PERKS在最終階段采用了采用對比學(xué)習(xí)作為主任務(wù)，并使用其他部分任務(wù)作為輔助任務(wù)，進(jìn)行最終階段的學(xué)習(xí)。

▲圖3 ERNIE-3中所采用的Knowledge-Text Prediction

模型結(jié)構(gòu)層面

針對不同下游任務(wù)的特點(diǎn)：視頻內(nèi)容理解，語義相關(guān)性，query分析等，PERKS提供了一系列不同規(guī)模和不同特點(diǎn)的模型。同時(shí)一些常見的模型結(jié)構(gòu)優(yōu)化，如pre-layer-norm，采用相對位置編碼和絕對位置編碼的混合模式等方式，也都在PERKS的訓(xùn)練過程中被驗(yàn)證為有效并融入到模型中。

工程優(yōu)化層面

為了讓TB級的語料可以更容易被使用，以及方便未來可以兼容BM25，ANN等hard negatives的生成和訓(xùn)練，PERKS在分布式訓(xùn)練過程中，抽象了一個(gè)分布式的DataSet用于掛載整體訓(xùn)練樣本，其中，不同GPU節(jié)點(diǎn)使用ring-all-reduce進(jìn)行梯度更新，在GPU計(jì)算和梯度更新過程中，異步data-loader不停跟這個(gè)分布式data-set進(jìn)行交互，實(shí)時(shí)獲取不同的訓(xùn)練樣本，從而提升整體訓(xùn)練的迭代速度。此外，一些常見的訓(xùn)練trick，如fp16，recompute，梯度累積，lamb等，也都被作為標(biāo)配應(yīng)用于PERKS中。

模型評估

如何評價(jià) PERKS 在圈外場景的效果展現(xiàn)，快手搜索的NLPers把目光投向了公開數(shù)據(jù)集 CLUE 上，因搜索場景與分類的場景更加接近，由此選擇 CLUE 中的分類任務(wù)來驗(yàn)證模型。在模型的迭代過程中，PERKS 在 CLUE 1.1分類任務(wù)中展現(xiàn)出了較好的表現(xiàn)，于11月4日成功登頂 CLUE 1.1分類任務(wù)排行榜，這也是給快手搜索的NLPers的一次激勵(lì)！

▲圖4 CLUE1.1分類任務(wù)排行榜（HUMAN 為人工標(biāo)注結(jié)果，不參與模型排名）

再來看看破圈后的 PERKS 在探針實(shí)驗(yàn)上的表現(xiàn)。如圖5所示，可以驚奇的發(fā)現(xiàn)破圈后的模型不僅能夠準(zhǔn)確預(yù)測“小紅心”，就連“小紅書”這樣的圈外知識(shí)也被模型吸收了進(jìn)來！

▲圖5 探針（Probing）實(shí)驗(yàn)

最后

自然語言處理工程師在快手搜索場景中能夠施展才華的機(jī)會(huì)和空間還有很多，研究者也歡迎更多的 NLPer 加入進(jìn)來，一起進(jìn)步，一起用生活回答每一種生活！

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

總結(jié)

以上是生活随笔為你收集整理的专心做搜索也能登顶CLUE分类榜？在快手做搜索是一种怎样的体验的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：拍不完的脑袋：推荐系统打压保送重排策略
下一篇： ICLR2021 Oral ｜9行代码提