日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

發(fā)布時(shí)間:2024/7/5 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | 快手搜索

短視頻和直播,越來越成為重要的內(nèi)容供給形式,而內(nèi)容供給側(cè)的改變,也在潛移默化地推動(dòng)著用戶搜索習(xí)慣的變化。據(jù)報(bào)道,截止今年4月,超過50%的用戶都在使用快手搜索功能,每天搜索達(dá)到2.5億次,每天有超百萬部作品被用戶搜索到,截止今年8月,快手搜索日均搜索次數(shù)超過3億,用戶利用快手搜索的習(xí)慣似乎在逐步養(yǎng)成。

▲圖1 快手上的短視頻案例

區(qū)別于傳統(tǒng)的網(wǎng)頁搜索,在快手的短視頻搜索場景中的主要挑戰(zhàn)為:

主要內(nèi)容是短視頻

網(wǎng)頁的主要信息載體為文字,往往具備比較豐富的上下文描述,而相對來說,短視頻的表達(dá)載體更加多元化,一部分上下文信息可以通過視覺或者聽覺的方式傳遞給用戶,而不再需要額外的文本描述,最終導(dǎo)致短視頻的文本信息往往相對網(wǎng)頁來說更加短小精悍;上下文的缺乏,就對模型的文本語義刻畫能力和多模態(tài)理解能力有了更高的要求。

較顯著的社區(qū)特性

快手搜索的內(nèi)容生產(chǎn)者和消費(fèi)者,都帶有比較顯著的社區(qū)特性:由于快手更加強(qiáng)調(diào)其社交屬性,用戶在日常的相互溝通和討論中,往往會(huì)產(chǎn)生一系列這個(gè)社區(qū)內(nèi)獨(dú)有的“黑話”,這些社區(qū)文化的產(chǎn)生,一定程度上就會(huì)造成相同的文字在快手社區(qū)內(nèi)和全網(wǎng)范圍內(nèi),表義完全不同的現(xiàn)象,例如:同樣是搜索“禮物”,在傳統(tǒng)搜索引擎中,獲取到的往往是例如“禮物如何購買”,“禮物推薦”等相關(guān)內(nèi)容,而在快手社區(qū)內(nèi),term“禮物”還有另一層含義,就是網(wǎng)紅“小禮物”,這類具有特色的社區(qū)文化,就會(huì)使得一些開源的模型和算法,在實(shí)際場景中難以發(fā)揮出較強(qiáng)的作用。

▲圖2 快手網(wǎng)紅小禮物

破圈挑戰(zhàn)

滿足社區(qū)內(nèi)需求的同時(shí),也需要不斷應(yīng)對破圈過程中的各種挑戰(zhàn):用戶規(guī)模的不斷增加和搜索需求的不斷增加,就需要相應(yīng)的搜索算法能夠未雨綢繆,想辦法具備更強(qiáng)的泛化能力,能夠同時(shí)處理社區(qū)內(nèi)(in-domain)和社區(qū)外(out-of-domain)的不同輸入和信息,從而達(dá)到為整體業(yè)務(wù)破圈保駕護(hù)航的作用。

PERKS

為了應(yīng)對上述挑戰(zhàn),快手搜索的NLPers針對快手搜索場景,打造了一套更加全面的模型評估體系,同時(shí)涵蓋了內(nèi)部業(yè)務(wù)數(shù)據(jù)集和外部公開數(shù)據(jù)集,以此來模擬對in-domain任務(wù)和out-of-domain任務(wù)的處理能力,同時(shí),面向快手搜索業(yè)務(wù)特點(diǎn),打造了一個(gè)具有快手搜索特色的預(yù)訓(xùn)練語言模型:PERKS(Pre-trained Embedding Representation for Kuai Search),相比于其他開源的預(yù)訓(xùn)練語言模型,PERKS在技術(shù)上具有以下特點(diǎn):

數(shù)據(jù)準(zhǔn)備層面

分別收集了TB級別的內(nèi)部和外部語料,其中,內(nèi)部語料包括視頻中文字標(biāo)題,高置信度的視頻ocr識(shí)別結(jié)果,和高置信度的視頻asr識(shí)別結(jié)果,該視頻的相關(guān)評論和點(diǎn)擊query,通過視覺學(xué)習(xí)到的視頻tag等文本內(nèi)容,并通過文字出現(xiàn)的位置和時(shí)間等信息,將一個(gè)視頻中的文字組織成一個(gè)文檔,以便于進(jìn)行訓(xùn)練。外部語料中,除了常見的開源百科數(shù)據(jù),還包括一些開源的新聞網(wǎng)站內(nèi)容。經(jīng)過各種預(yù)處理過濾掉不置信內(nèi)容,去除冗余信息后,一個(gè)高質(zhì)量,同時(shí)包含內(nèi)部特色和外部特色的數(shù)據(jù)集就構(gòu)造出來了。

訓(xùn)練任務(wù)層面

為了讓模型能夠同時(shí)學(xué)習(xí)到不同領(lǐng)域,不同粒度的語言知識(shí),參考MMOE思想,設(shè)計(jì)了一個(gè)多階段,多任務(wù)的學(xué)習(xí)模式,包括,第一階段(pre-pretrain)使用百科數(shù)據(jù)學(xué)習(xí)Masked Langauge Model(采用了dynamic whole-word-masking),去學(xué)習(xí)基礎(chǔ)的語言知識(shí)。

二階階段(pre-train),使用內(nèi)部語料和外部語料進(jìn)行混合,并且將訓(xùn)練任務(wù)擴(kuò)展為:dynamic-whold-word-masking,char-reorder,knowledge-masking(通過百科和內(nèi)部關(guān)鍵實(shí)體識(shí)別技術(shù),對齊到的知識(shí)信息進(jìn)行mask),important-whole-word-masking等,并在這個(gè)階段引入sentence-order-prediction,sentence-distance-prediction,sentence-source-prediction(這段文本是來自于ocr,asr,網(wǎng)頁數(shù)據(jù),還是其他部分)等任務(wù),用于刻畫句子級知識(shí),通過課程學(xué)習(xí)的方式,在訓(xùn)練過程中逐步調(diào)整不同任務(wù)的配比,讓模型逐漸學(xué)習(xí)到更具有挑戰(zhàn)的知識(shí)。

經(jīng)過第二階段,模型就學(xué)習(xí)到了一個(gè)比較大而全面的通用語言知識(shí)。在最終階段(post-pretrain),PERKS會(huì)針對下游任務(wù)的特點(diǎn),對in-domain和out-of-domain的語料,進(jìn)行不同比例的采樣,并根據(jù)當(dāng)前下游任務(wù)是處理word-level還是sentence-level任務(wù)的特點(diǎn),對于訓(xùn)練任務(wù)進(jìn)行調(diào)整,并在一個(gè)精選數(shù)據(jù)上,進(jìn)行微調(diào),例如針對ANN召回任務(wù)和雙塔語義模型,PERKS在最終階段采用了采用對比學(xué)習(xí)作為主任務(wù),并使用其他部分任務(wù)作為輔助任務(wù),進(jìn)行最終階段的學(xué)習(xí)。

▲圖3 ERNIE-3中所采用的Knowledge-Text Prediction

模型結(jié)構(gòu)層面

針對不同下游任務(wù)的特點(diǎn):視頻內(nèi)容理解,語義相關(guān)性,query分析等,PERKS提供了一系列不同規(guī)模和不同特點(diǎn)的模型。同時(shí)一些常見的模型結(jié)構(gòu)優(yōu)化,如pre-layer-norm,采用相對位置編碼和絕對位置編碼的混合模式等方式,也都在PERKS的訓(xùn)練過程中被驗(yàn)證為有效并融入到模型中。

工程優(yōu)化層面

為了讓TB級的語料可以更容易被使用,以及方便未來可以兼容BM25,ANN等hard negatives的生成和訓(xùn)練,PERKS在分布式訓(xùn)練過程中,抽象了一個(gè)分布式的DataSet用于掛載整體訓(xùn)練樣本,其中,不同GPU節(jié)點(diǎn)使用ring-all-reduce進(jìn)行梯度更新,在GPU計(jì)算和梯度更新過程中,異步data-loader不停跟這個(gè)分布式data-set進(jìn)行交互,實(shí)時(shí)獲取不同的訓(xùn)練樣本,從而提升整體訓(xùn)練的迭代速度。此外,一些常見的訓(xùn)練trick,如fp16,recompute,梯度累積,lamb等,也都被作為標(biāo)配應(yīng)用于PERKS中。

模型評估

如何評價(jià) PERKS 在圈外場景的效果展現(xiàn),快手搜索的NLPers把目光投向了公開數(shù)據(jù)集 CLUE 上,因搜索場景與分類的場景更加接近,由此選擇 CLUE 中的分類任務(wù)來驗(yàn)證模型。在模型的迭代過程中,PERKS 在 CLUE 1.1分類任務(wù)中展現(xiàn)出了較好的表現(xiàn),于11月4日成功登頂 CLUE 1.1分類任務(wù)排行榜,這也是給快手搜索的NLPers的一次激勵(lì)!

▲圖4 CLUE1.1分類任務(wù)排行榜(HUMAN 為人工標(biāo)注結(jié)果,不參與模型排名)

再來看看破圈后的 PERKS 在探針實(shí)驗(yàn)上的表現(xiàn)。如圖5所示,可以驚奇的發(fā)現(xiàn)破圈后的模型不僅能夠準(zhǔn)確預(yù)測“小紅心”,就連“小紅書”這樣的圈外知識(shí)也被模型吸收了進(jìn)來!

▲圖5 探針(Probing)實(shí)驗(yàn)

最后

自然語言處理工程師在快手搜索場景中能夠施展才華的機(jī)會(huì)和空間還有很多,研究者也歡迎更多的 NLPer 加入進(jìn)來,一起進(jìn)步,一起用生活回答每一種生活!

后臺(tái)回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)

獲取ACL、CIKM等各大頂會(huì)論文集!

總結(jié)

以上是生活随笔為你收集整理的专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。