日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【云音乐】从手游APP到云音乐视频标签分类,时隔3个月再次面对多标签任务,终于摸索出了一些小经验。附自定义评估函数代码

發(fā)布時(shí)間:2025/3/8 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【云音乐】从手游APP到云音乐视频标签分类,时隔3个月再次面对多标签任务,终于摸索出了一些小经验。附自定义评估函数代码 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【云音樂(lè)】從手游APP到云音樂(lè)視頻標(biāo)簽分類,時(shí)隔3個(gè)月再次面對(duì)多標(biāo)簽任務(wù),終于摸索出了一些小經(jīng)驗(yàn)。

  • 前言
  • 一個(gè)好用的評(píng)估函數(shù)
    • 常用的多標(biāo)簽任務(wù)評(píng)估函數(shù)
    • 我選擇平均準(zhǔn)確率
  • 合理的特征處理和模型
    • 特征處理
    • 合理的模型
  • 如何面對(duì)熱門標(biāo)簽對(duì)冷門標(biāo)簽的壓制
  • 總結(jié)


前言

之前在個(gè)推實(shí)習(xí)的時(shí)候,接到了對(duì)手游app的多標(biāo)簽分類任務(wù),當(dāng)初應(yīng)該是10+個(gè)一級(jí)標(biāo)簽,20+個(gè)二級(jí)標(biāo)簽,兩者之間是層次關(guān)系,當(dāng)初還是懵懵懂懂只知道把所有爬下來(lái)的特征(文本、icon、包大小等)提取特征之后一股腦的拼接在一起然后隨便疊幾個(gè)dense層就sigmoid輸出了。效果也一直不理想,對(duì)于結(jié)果的觀察除了用tf自帶的acc評(píng)估函數(shù),就是人工加規(guī)則,做的非常苦惱。

最近在網(wǎng)易云實(shí)習(xí),由于運(yùn)維給mlog的打標(biāo)并不標(biāo)準(zhǔn),為了給mlog和user進(jìn)行打散,所以需要做一個(gè)mlog多標(biāo)簽分類模型,對(duì)80w個(gè)mlog進(jìn)行預(yù)測(cè),共有666個(gè)標(biāo)簽。雖有都有現(xiàn)成的特征,但這次吸取了上次的經(jīng)驗(yàn),整個(gè)流程下來(lái)明顯順暢了很多,因此在這里想把自己的經(jīng)驗(yàn)分享給大家。(代碼和數(shù)據(jù)恕不能公開(kāi))


一個(gè)好用的評(píng)估函數(shù)

一個(gè)準(zhǔn)確好用的多標(biāo)簽分類評(píng)估函數(shù),直接決定了你優(yōu)化模型的方向,也是你的指路明燈,之前一直用的acc,這明顯沒(méi)有考慮到標(biāo)簽不平衡的問(wèn)題,這次任務(wù)中最多的標(biāo)簽覆蓋率達(dá)到萬(wàn),最少卻只有幾百。因此存在正負(fù)樣本不平衡的情況。

解決方法:

  • 單獨(dú)觀察每一個(gè)標(biāo)簽的召回、精準(zhǔn)、F1值,方便了解模型對(duì)哪些標(biāo)簽表現(xiàn)較差,方便人工調(diào)整。
  • 自定義評(píng)估函數(shù),對(duì)于標(biāo)簽種類繁多,顯然第一種方法不太現(xiàn)實(shí),我們需要一個(gè)明確的指標(biāo)來(lái)代表模型的優(yōu)良性
  • 常用的多標(biāo)簽任務(wù)評(píng)估函數(shù)

    關(guān)于評(píng)估函數(shù)的詳細(xì)介紹和更多其他評(píng)估指標(biāo)可參考B站視頻:多標(biāo)簽分類的評(píng)價(jià)指標(biāo)(一)

    我選擇平均準(zhǔn)確率

    選擇平均準(zhǔn)確率這一評(píng)估指標(biāo)的理由:
    1. 該評(píng)估指標(biāo)同時(shí)關(guān)注了正樣本和負(fù)樣本,考慮到了全局標(biāo)簽的可能性。
    2. 相比于排序損失,其實(shí)現(xiàn)邏輯更加簡(jiǎn)明,自己實(shí)現(xiàn)起來(lái)比較友好。
    3. 相比于漢明損失,由于閾值不好界定,人工選擇閾值對(duì)評(píng)估函數(shù)有較大影響。

    實(shí)現(xiàn)代碼:

    @tf.function def average_acc(y_true,y_pred):sum_ = tf.reduce_sum(y_true,-1) + 1e-8index = tf.argsort(-y_pred)rank = tf.argsort(index) +1c = tf.where(y_true==1,y_pred,0)index2 = tf.argsort(-c)rank2 = tf.argsort(index2) +1ax = tf.cast(tf.reduce_sum(tf.where(y_true==1,rank2/rank,0),-1),tf.float32)return tf.reduce_mean(ax/sum_)

    合理的特征處理和模型

    特征處理

  • 直覺(jué)的思考來(lái)說(shuō),如果我們手上有embedding特征,并且有幾個(gè)離散的特征,直接將離散特征與embedding concat后丟給模型,這是不合理的,特別是當(dāng)這幾個(gè)離散特征很重要的時(shí)候,因?yàn)樘卣鞑粊?lái)自同一分布或意義,直接concat相當(dāng)于將這一信息抹去了。
  • 參考解決方法,將類別特征和離散特征都人工轉(zhuǎn)為類別特征,之后都各自建立embedding,embedding維度不用太高,之后再作拼接會(huì)更合理,將強(qiáng)特征embedding后,可以讓他表達(dá)更多的信息。
  • 合理的模型

  • 分域?qū)W習(xí)特征再concat!!!這樣做比直接concat后接dense會(huì)有不錯(cuò)的提升!我們希望模型能對(duì)各個(gè)域的特征單獨(dú)進(jìn)行抽象和學(xué)習(xí)充分后再將這些特征拼接在一起。這符合模型學(xué)習(xí)的邏輯。最簡(jiǎn)單的具體做法:將來(lái)自同一個(gè)域的維度特征單獨(dú)接dense層進(jìn)行抽象,之后將所有域的dense層結(jié)果憑借,再接dense層進(jìn)行特征的交叉學(xué)習(xí)。這一方法可以根據(jù)自己的特征進(jìn)行多樣的變化,如何抽象同一個(gè)域的特征有很多方法。

    模型1:
    使用特征:—
    特征處理:特征直接concat
    模型分?jǐn)?shù):0.7371
    模型2:
    使用特征:—
    特征處理:特征分別抽象后concat
    模型分?jǐn)?shù):0.7583

  • 請(qǐng)使用focal loss 或 冪次懲罰,這能給多標(biāo)簽任務(wù)帶來(lái)不錯(cuò)的提升。具體實(shí)現(xiàn)可以參考我之前的博客。


  • 如何面對(duì)熱門標(biāo)簽對(duì)冷門標(biāo)簽的壓制

  • 盡管使用了一些解決類別不平衡的方法,但模型最后的推理讓趨向于給那些出現(xiàn)頻次較高的標(biāo)簽更大的概率值,這導(dǎo)致最后我們得到的mlog之前的區(qū)分度較低,這顯然不利于打散。
  • 最后我們通過(guò)計(jì)算各個(gè)標(biāo)簽的IDF值,在模型最后輸出的各個(gè)標(biāo)簽的結(jié)果上乘上對(duì)應(yīng)的IDF值。得到了較為滿意的結(jié)果,通過(guò)人工抽樣分析,發(fā)現(xiàn)一些比較冷門的標(biāo)簽的位次有所上浮,這一定程度上保證了mlog之前的區(qū)分度以及標(biāo)簽的多樣性。
  • (也嘗試過(guò)直接在模型訓(xùn)練過(guò)程中乘上該權(quán)重,讓模型適應(yīng)該權(quán)重,也有不錯(cuò)的效果。)


    總結(jié)

    最后可以根據(jù)業(yè)務(wù)需求對(duì)標(biāo)簽做一些剔除與合并。
    我們通過(guò)最后得到的mlog多標(biāo)簽結(jié)果,去計(jì)算用戶的標(biāo)簽偏好,將這兩者的新特征加入到雙塔模型中進(jìn)行嘗試,模型效果有不錯(cuò)的提升。

    總結(jié)

    以上是生活随笔為你收集整理的【云音乐】从手游APP到云音乐视频标签分类,时隔3个月再次面对多标签任务,终于摸索出了一些小经验。附自定义评估函数代码的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 亚洲av片不卡无码久久 | 国产v亚洲 | 中国丰满人妻videoshd | 久久男人的天堂 | 国产精品亚洲一区二区三区 | 欧美拍拍 | 亚洲区一| 奇米精品一区二区三区四区 | 喷水在线观看 | 日本免费看 | 亚洲色图图片区 | 四虎影库在线播放 | 小视频在线免费观看 | 粉嫩av一区二区三区 | 无码人妻丰满熟妇区五十路 | 耳光调教vk | 亚洲视频免费在线观看 | 久久久亚洲一区二区三区 | 佐佐木明希电影 | 一级做a爰片久久毛片 | 午夜影院a | www伊人| 少妇2做爰交换朴银狐 | 中文字幕乱码亚洲精品一区 | 亚洲永久精品一区二区 | 欧美一区二区不卡视频 | 亚洲欧美亚洲 | 国产呦小j女精品视频 | 国产视频不卡一区 | 视频一区二区在线观看 | 伊人视屏 | 宿舍女女闺蜜调教羞辱 | 国产黑丝视频 | 男男play视频 | 绿帽人妻精品一区二区 | 国产精自产拍久久久久久蜜 | 久久99久久99精品中文字幕 | 欧美视频在线免费看 | 久久男人av | 少妇一级淫片aaaaaaa | 少妇免费看 | 色欲亚洲Av无码精品天堂 | 久热亚洲 | 国产在线成人 | 驯服少爷漫画免费观看下拉式漫画 | 2021国产精品视频 | 亚洲私人影院 | 在线观看av网站 | 日韩精品免费一区 | 夜夜撸网站 | 人妻互换一二三区激情视频 | 中文字幕在线网站 | 福利片一区二区 | 久久亚洲一区二区三区四区 | 久久高清av | 亚洲成人av网址 | 另类小说婷婷 | 亚洲av无码国产精品久久 | 亚洲最大的成人网站 | 999国产精品视频免费 | 操xxxx| 亚洲精品一区二区三区婷婷月 | 在线视频免费观看你懂的 | 日韩美女视频网站 | 99久久婷婷国产精品综合 | 无码精品a∨在线观看中文 福利片av | 日韩视频精品在线 | 国产福利av | 久久性av | 青青久久久 | 亚洲色图日韩精品 | 夜夜躁日日躁狠狠久久av | 少妇无套内谢久久久久 | 中文字幕在线免费看线人 | 99精品无码一区二区 | 久久综合亚洲 | 国产1页| 鲁丝一区二区 | 97精品一区二区视频在线观看 | 免费一级特黄毛大片 | 警察高h荡肉呻吟男男 | 婷婷色影院 | 国产亚洲视频在线 | 色哟哟视频在线观看 | 青青草草 | 免费久草视频 | 极品福利视频 | 午夜黄色剧场 | 精品久久福利 | 免费性爱视频 | 91精品视频免费观看 | 国产特级aaaaaa大片 | 体内射精一区二区 | 国内av网站 | 天天操操夜夜操操 | 国产精品久久久久久久免费大片 | 青青草视频在线观看免费 | 国产精品国产三级国产普通话蜜臀 | 欧美一区二区三区激情视频 |