日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程

發(fā)布時(shí)間:2025/3/8 ChatGpt 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1??搜索競(jìng)賽特征工程總結(jié)

很多搜索推薦的工業(yè)界大模型的特征工程核心可以分為用戶側(cè)商品側(cè)還有一些其他側(cè)(一些i2i,u2i等的上游特征)三大類。

本篇文章,不考慮所有時(shí)間等因素,直接調(diào)研和搜索相關(guān)的競(jìng)賽,并對(duì)其特征和模型訓(xùn)練技巧進(jìn)行總結(jié)。

  • 如果是count特征,我們的[XXX]就直接省略

2??單階特征

2.1??User側(cè)特征

2.1.1??User單階特征:groupby(user)[XXX]

  • user + [time]: 相鄰時(shí)間戳的最小/最大/均值/中位數(shù)(min/max/mean/median(time_diff)), 當(dāng)前時(shí)間與最早一次/最近上一次時(shí)間的差值, 與最后一次/最近下一次時(shí)間的差值;

    反映用戶的活動(dòng)頻繁度

  • user + [query/item/...]:搜索不同query的次數(shù),商品數(shù),... nunique(query/item/shop/brand/city)

    反映用戶的興趣是否寬泛

  • user + [istrade]: 用戶連續(xù)未購(gòu)買商品數(shù),用戶連續(xù)未購(gòu)買次數(shù); 用戶購(gòu)買的item數(shù)和未購(gòu)買的商品/商店數(shù),以及二者的比例.

    用戶的近期購(gòu)買興趣,僅僅是為了看商品,還是希望買商品


  • 2.2??Item側(cè)特征

    2.2.1??Item/shop/brand...單階特征:groupby(item)[XXX]

  • item/shop/brand + [buy]: 商品過去每天的曝光次數(shù)(count),被購(gòu)買次數(shù)(buysum)

  • item/shop/brand + [time & buy]: 商品過去一段時(shí)間購(gòu)買的趨勢(shì)特征(后一天與前一天的購(gòu)買比例/曝光比例);

  • item/shop/brand + [time & buy]: 商品第一次被購(gòu)買的時(shí)間與商品第一次曝光的時(shí)間差;

  • item/shop/brand + [time & price/score...]: item近期商品屬性的變化,例如price/星級(jí)/好評(píng)等.(mean,std,val-mean)

  • 2.2.2??Item的內(nèi)部組合特征

  • Item在shop/city/country/brand/query下的點(diǎn)擊率/購(gòu)買率排名;

  • shop在brand/city/country/query下的點(diǎn)擊率/購(gòu)買率排名;

  • brand在city/query下的點(diǎn)擊率/購(gòu)買率排名;

  • cate在city下的點(diǎn)擊率/購(gòu)買率排名;

  • 3??組合特征

    3.1??User+Query特征(二階/高階):groupby(user+query+other)[XXX]

    同一個(gè)user在Query側(cè)的特征(滑窗)

  • user + query, (之前/之后)有幾次相同的值(count/ratio),(之前/之后)有幾次不相同的值(count/ratio)

    此處的ratio為count再除以u(píng)ser+query的前后的count

  • user + query + item/shop/brand/city/context_page_id特征, (之前/之后)有幾次相同的值(count/ratio)

  • user + query + item_category_list特征, (之前/之后)有幾次相同的值(count/ratio)

  • user + query + [time]: 相同query最小/最大時(shí)間(min(time))

  • user + query + [item/shop]: 在該query之前/之后用戶訪問的item/shop數(shù)目

  • 3.2??User + Item特征(二階/高階):groupby(user+item+other)[XXX]

  • user + item + [predict_category_property/query/...],(之前/之后)有幾次不同的值(nunqiue)

  • user + shop + [predict_category_property/query/...],(之前/之后)有幾次不同的值(nunqiue)

  • user + brand + [predict_category_property/query/...],(之前/之后)有幾次不同的值(nunqiue)

  • user + city + [predict_category_property/query/...],(之前/之后)有幾次不同的值(nunqiue)

  • user + item/: 用戶在之前之后點(diǎn)擊了多少價(jià)格更低的商品,銷量更高的商品,評(píng)價(jià)數(shù)更多的店鋪,好評(píng)率高的店鋪,星級(jí)高的店鋪,服務(wù)態(tài)度高的店鋪,物流好的店鋪,描述評(píng)分高的店鋪

  • 4??特征重要性

    5??小結(jié)

  • 從特征重要性看,除去一些基礎(chǔ)特征和穿越特征(例如next diff等),Query相關(guān)的特征占比非常大;而且從答辯PPT看來,Query相關(guān)的特征也是幫助最大的一波,而這在大模型模塊是可以重點(diǎn)參考的;

  • 第二部分是rank相關(guān)的特征(某個(gè)item在某個(gè)品牌下的銷量排名等),該部分特征是方案中提升很大的另一部分;

  • 6??參考文獻(xiàn)

  • IJCAI-18亞軍分享:https://tianchi.aliyun.com/forum/postDetail?postId=5311

  • IJCAI-18亞軍特征重要性:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution/blob/master/file/fea_importance.csv

  • 答辯PPT:https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.9.6d0a48c58rjez0&postId=5311

  • 往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群:

    總結(jié)

    以上是生活随笔為你收集整理的【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。