Kaggle知识点:时序数据与Embedding
時序數據與Embedding
在最近查看騰訊賽賽題介紹的時候突然發現賽題有點熟悉,進而在看漁佬對今年騰訊賽分享,以及大白對DCIC海洋賽的比賽總結時,思路逐漸清晰:所有的時序序列都可以用Embedding的操作。
本文將以幾個歷史比賽案例(按照參賽的時間排序),講解時序數據與Embedding的應用場景。文章末尾將介紹與騰訊賽相似的幾個歷史賽題。
01 蛋白質序列
第一次在非典型NLP領域看到Embedding是在“基于人工智能的藥物分子篩選”比賽中,這個比賽任務是根據蛋白質序列來預測蛋白質和小分子之間的親和力數值。
這個開源還是小伍哥的開源,使用蛋白質序列訓練一個詞向量,然后使用LightGBM進行訓練。小伍哥在2年前都這么帥了,贊!
texts?=?[[word?for?word?in?re.findall(r'.{3}',document)]?for document in list(protein_concat['Sequence'])]model?=?Word2Vec(texts,size=n,window=4,min_count=1,negative=3,sg=1,sample=0.001,hs=1,workers=4)這是一個兩年前的比賽,當然Top獲獎方案還是需要使用一些領域知識。所以在沒有領域知識的情況下或許無腦Embedding是一個不錯的選擇。
小伍哥的分享:
https://www.pkbigdata.com/common/bbs/topicDetails.html?tid=1025
B榜第三名的分享:
https://www.pkbigdata.com/common/bbs/topicDetails.html?tid=1377
02 病毒序列
第二次在非典型NLP比賽中看到Embedding是在“第三屆阿里云安全賽”中,這個比賽任務是需要根據程序的API序列進行分類。
這場比賽我參加過,也因此在線下賽認識了大白。安全賽中也是不同的病毒API是一個單詞,執行序列組成一個樣本。
但是在這個比賽中,由于API個數比較少,所以Embedding反而沒有TF-IDF有效。當然在stacking階段,Embedding也是有提升的。
03 船舶序列
最近一次是在最近結束的DCIC海洋賽中看到了Embedding,這也是一個非典型的NLP比賽,賽題任務需要根據漁船的運動軌跡進行行為分類。
這場比賽大白也參加了,每個漁船id的速度、經緯度看做是一個序列信息,利用速度、經緯度的分位數統計量,將浮點特征分桶轉成一個類型特征。
使用深度學習的word2vec的CBOW算法無監督訓練,獲取經緯度(x-y)和速度(speed)的類型向量,每個漁船id的經緯度和速度向量取平均作為特征,這個思路和Fasttext比較類似。
大白的分享:
【時序多分類賽題】2020數字中國創新大賽-智慧海洋建設top5方案(含源碼)
04?APP序列
最近一次是在易觀用戶性別年齡預測比賽中遇到,這也是一個非典型的NLP比賽,賽題任務需要根據用戶手機APP使用序列來對用戶的年齡和性別進行分類。
在易觀這場比賽中,chizhu獲得了冠軍,我是亞軍。這場比賽的核心也是APP序列建模,使用Embedding構建特征。
chizhu在易觀的分享:
https://github.com/chizhu/yiguan_sex_age_predict_1st_solution
看到這里,有沒有發現本次騰訊賽的賽題也是這個路子。大賽的題目嘗試從另一個方向來驗證這個假設,即以用戶在廣告系統中的交互行為作為輸入來預測用戶的人口統計學屬性。
如果你參加了本次騰訊賽,chizhu 的分享可以參考。Coggle數據科學也會持續關注,大家一起學起來~
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯AI基礎下載(pdf更新到25集)機器學習的數學基礎專輯本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看總結
以上是生活随笔為你收集整理的Kaggle知识点:时序数据与Embedding的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【算法漫画】:什么是红黑树?(整合版)
- 下一篇: 【NLP】ACL 2010-2020研究