ML 自学者周刊:第 5 期
刊首語(yǔ)
這里記錄ML自學(xué)者群體,每周分享優(yōu)秀的學(xué)習(xí)心得與資料。由于微信不允許外部鏈接,需要點(diǎn)擊文末的「閱讀原文」,才能訪問(wèn)文中的鏈接。
本期內(nèi)容
論文閱讀
?ACL2018:多語(yǔ)義詞向量的編碼?阿里電商訴訟預(yù)測(cè)多任務(wù)模型?EMNLP2019: 短文本分類的異質(zhì)圖注意力網(wǎng)絡(luò)
學(xué)習(xí)心得
?小強(qiáng):Encoder-Decoder?君君:YOLO 框架學(xué)習(xí)?昨夜星辰:詞向量學(xué)習(xí)?君君:研究圖像模態(tài)轉(zhuǎn)換模型?奔騰:科大訊飛比賽總結(jié)?曲奇:優(yōu)化理論的多目標(biāo)規(guī)劃問(wèn)題
疑問(wèn)解答
?特征工程中的歸一化有什么作用?如何解釋準(zhǔn)確率、召回率和F值?特征抽取、特征選擇、變化組合區(qū)別
論文閱讀
ACL2018:多語(yǔ)義詞向量的編碼
閱讀論文 ACL2018 上的: Probabilistic FastText for Multi-Sense Word Embeddings
已有方法不能很好的應(yīng)對(duì)稀有詞與詞匯表沒(méi)有的詞的語(yǔ)義問(wèn)題,文章提出來(lái)一種概率詞模型,將高斯混合概率與FastText模型結(jié)合,具有靈活的子詞結(jié)構(gòu)。
高斯分量可以得到多義詞意義上的分離,FastText子詞結(jié)構(gòu)獲取到更多字符級(jí)信息與不確定的信息,從而提供了高質(zhì)量的語(yǔ)義表達(dá)。文章模型在一些詞相似度數(shù)據(jù)集上的表現(xiàn)優(yōu)于之前的模型,在罕見詞數(shù)據(jù)集和其他語(yǔ)言數(shù)據(jù)集上也有較好的效果。本文工作首次利用多模態(tài)嵌入來(lái)解決罕見詞的問(wèn)題。
論文地址[1]
阿里電商訴訟預(yù)測(cè)多任務(wù)模型
今天給大家分享一篇阿里使用多任務(wù)模型做電商訴訟預(yù)測(cè)的論文。論文地址:Legal Intelligence for E-commerce。
首先介紹一下文章背景,一般來(lái)說(shuō)會(huì)先有電商糾紛(一般是在線的,所以此過(guò)程也稱為ODR,online dispute resolution),如果買賣雙方對(duì)糾紛處理結(jié)果不滿意的話一般會(huì)通過(guò)律法途徑將糾紛問(wèn)題轉(zhuǎn)為訴訟問(wèn)題。而訴訟需要請(qǐng)律師(高額的費(fèi)用),同時(shí)法官也需要收集各方面的信息(包括買賣方的歷史數(shù)據(jù)及平臺(tái)聊天記錄等),這些都給訴訟處理帶來(lái)了很大的困難。
那么訴訟預(yù)測(cè)會(huì)面臨什么問(wèn)題呢?
LDJ(legal dispute judgement)任務(wù)在NLP領(lǐng)域做得相對(duì)較為成熟,但是電商糾紛/訴訟預(yù)測(cè)與LDJ還是有一定的區(qū)別,所以不能直接套用LDJ預(yù)測(cè)的方法來(lái)解決電商糾紛/訴訟預(yù)測(cè)任務(wù),但是作者表示這兩者有一定的相似度。
相對(duì)于糾紛數(shù)據(jù)來(lái)說(shuō),電商訴訟數(shù)據(jù)更為稀疏,也就是訓(xùn)練數(shù)據(jù)少。
總體上來(lái)說(shuō),作者使用了多任務(wù)網(wǎng)絡(luò)的模型,糾紛數(shù)據(jù)訓(xùn)練底層表示,使用訴訟數(shù)據(jù)微調(diào)更上層的網(wǎng)絡(luò)。
這篇文章會(huì)介紹好幾次,這次先講個(gè)大概吧。
論文地址[2]
EMNLP2019: 短文本分類的異質(zhì)圖注意力網(wǎng)絡(luò)
短文本分類在新聞及微博等領(lǐng)域得到了廣泛的應(yīng)用。但是,目前的文本分類算法主要集中于長(zhǎng)文本分類并且無(wú)法直接應(yīng)用于短文本分類。這是由于短文本分類的兩個(gè)獨(dú)有挑戰(zhàn):數(shù)據(jù)的稀疏和歧義、標(biāo)簽數(shù)量較少。
針對(duì)上述兩個(gè)挑戰(zhàn),本文創(chuàng)新地將短文本建模為異質(zhì)圖,通過(guò)圖數(shù)據(jù)的復(fù)雜交互來(lái)解決數(shù)據(jù)稀疏和歧義帶來(lái)的挑戰(zhàn)。同時(shí),本文提出了一種異質(zhì)圖注意力 HGAT 來(lái)學(xué)習(xí)短文本的表示并進(jìn)行分類。HGAT 是一種半監(jiān)督學(xué)習(xí)算法可以更好的適用于標(biāo)簽數(shù)量較少的場(chǎng)景,如短文本的分類。
論文地址[3]
學(xué)習(xí)心得
小強(qiáng):Encoder-Decoder
本周在看 encoder–decoder,seq2seq,attention 相關(guān)的東西。
由于時(shí)間不夠,先簡(jiǎn)單說(shuō)幾點(diǎn)收獲,過(guò)幾天發(fā)成文。
encoder–decoder 是一個(gè)很大的范疇,不論編碼和解碼用的什么算法,只要是『編碼–解碼』的結(jié)構(gòu)都算這個(gè)范疇。
seq2seq 和 encoder–decoder很像。也是編碼和解碼的過(guò)程,不過(guò)范圍更小,基本限定在了nlp和語(yǔ)音這種序列特征很強(qiáng)的。
如果說(shuō)encoder–decoder是一種『有損壓縮』,在把長(zhǎng)文本轉(zhuǎn)化為固定向量的過(guò)程會(huì)損失一些信息。那么attention就更傾向于無(wú)損壓縮,更好的保留了信息。
君君:YOLO 框架學(xué)習(xí)
這周看了R-CNN,fast R-CNN,SPP,YOLOv1,YOLOv2的框架結(jié)構(gòu)。覺(jué)得YOLO這么簡(jiǎn)單地模型能有這么高的精確率以及效率是真的厲害。
另外在darknet上跑了下YOLO的預(yù)測(cè)模型,好奇darknet是怎么用yolo.cfg構(gòu)造tensorflow模型,就去一行一行看darknet源代碼,看得人腦殼疼。看過(guò)之后莫名覺(jué)得代碼能力level+1。
為了高效刷leetcode,找了本算法書籍補(bǔ)補(bǔ)算法代碼基礎(chǔ)(純數(shù)學(xué)系畢業(yè)工作才接觸的Python+深度學(xué)習(xí),覺(jué)得硬算法方面太欠缺了),看得比較零散暫時(shí)沒(méi)有總結(jié)。
昨夜星辰:詞向量學(xué)習(xí)
最近在學(xué)詞向量的發(fā)展史及代碼實(shí)戰(zhàn)。從 one-hot,詞袋,tf-idf到分布式表示,如NNLM,以及后來(lái)的 word2vec,fasttext,glove,elmo,gpt。
在看到bert時(shí),還是避免不了之前transformer等基礎(chǔ)。因此在代碼實(shí)戰(zhàn)上閱讀paper原文,掌握原理。希望將當(dāng)前的基本打牢。
君君:研究圖像模態(tài)轉(zhuǎn)換模型
最近在研究圖像模態(tài)轉(zhuǎn)換的模型。從改進(jìn)的condition cycle GAN ,到cycle GAN,再到Wasserstein cycle GAN。condition cycle GAN被放棄的原因正是因?yàn)閏ondition,condition模塊的存在使得預(yù)測(cè)(模態(tài)轉(zhuǎn)換)過(guò)程必須具備當(dāng)前圖像的label,導(dǎo)致切圖轉(zhuǎn)換再還原這個(gè)流程走不通。
cycle GAN訓(xùn)練過(guò)程中l(wèi)oss_D起伏波動(dòng)無(wú)法很好收斂(盡管大多數(shù)類別圖像模態(tài)轉(zhuǎn)換已經(jīng)很逼真,但還有少數(shù)類別無(wú)法完美轉(zhuǎn)換),網(wǎng)上查找之后發(fā)現(xiàn)這個(gè)原因很有可能是因?yàn)镚AN本身難收斂的原因,并且為了緩解這種情況已經(jīng)有人提出了Wasserstein GAN(WGAN)以及WGAN_GP。打算試試Wasserstein cycle GAN這條路能不能走通。
中間為了改進(jìn)cycle GAN,在github上找了好多基于基礎(chǔ)GAN改進(jìn)的condition GAN、Wasserstein GAN的相關(guān)實(shí)現(xiàn)代碼。參考然后嫁接到自己模型上面,發(fā)現(xiàn)GAN的玩法真的是太多了。下面附上兩個(gè)我覺(jué)得總結(jié)很到位的GAN鏈接。有興趣的可以嘗試參考第一個(gè)鏈接[4]中的變種GAN,在第二個(gè)鏈接[5]中改進(jìn)cycle GAN。
曲奇:優(yōu)化理論的多目標(biāo)規(guī)劃問(wèn)題
天津大學(xué)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室同網(wǎng)易伏羲人工智能實(shí)驗(yàn)室、NTU 合作的 ASE 2019 論文《Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning》。
該論文主要融合了進(jìn)化算法與深度強(qiáng)化學(xué)習(xí)算法,從多目標(biāo)優(yōu)化的角度,旨在解決大規(guī)模商業(yè)游戲的自動(dòng)化智能測(cè)試問(wèn)題,并榮獲 ASE 2019 的最佳論文獎(jiǎng) (Distinguished Paper Award)。
奔騰:科大訊飛比賽總結(jié)
科大訊飛四個(gè)比賽總結(jié)
?AD分類決賽總結(jié)[6]?工業(yè)壽命預(yù)測(cè)[7]?大數(shù)據(jù)應(yīng)用分類[8]?移動(dòng)反欺詐[9]
疑問(wèn)解答
特征工程中的歸一化有什么作用[10]
引入歸一化,是由于在不同評(píng)價(jià)指標(biāo)中,其量綱或者是量綱單位往往不同,變化區(qū)間處于不同的數(shù)量級(jí),若不進(jìn)行歸一化,可能導(dǎo)致某些指標(biāo)被忽視,影響到數(shù)據(jù)分析的結(jié)果。
所以,為了消除特征數(shù)據(jù)之間的量綱影響,需要進(jìn)行歸一化處理,已解決特征指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過(guò)歸一化處理后,各指標(biāo)處于同一數(shù)量級(jí),以便進(jìn)行綜合對(duì)比評(píng)價(jià)。
如何解釋準(zhǔn)確率、召回率和F值[11]
準(zhǔn)確率和召回率是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值,用來(lái)評(píng)價(jià)結(jié)果的質(zhì)量。其中精度是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。
一般來(lái)說(shuō),Precision就是檢索出來(lái)的條目(比如:文檔、網(wǎng)頁(yè)等)有多少是準(zhǔn)確的,Recall就是所有準(zhǔn)確的條目有多少被檢索出來(lái)了。
正確率、召回率和 F 值是在魚龍混雜的環(huán)境中,選出目標(biāo)的重要評(píng)價(jià)指標(biāo)。不妨看看這些指標(biāo)的定義先:
?正確率 = 提取出的正確信息條數(shù) / 提取出的信息條數(shù)?召回率 = 提取出的正確信息條數(shù) / 樣本中的信息條數(shù)
兩者取值在0和1之間,數(shù)值越接近1,查準(zhǔn)率或查全率就越高。
?F 值 = 正確率 * 召回率 * 2 / (正確率 + 召回率) (F 值即為正確率和召回率的調(diào)和平均值)
特征抽取、特征選擇、變化組合區(qū)別[12]
特征抽取,一般是從原始數(shù)據(jù)中通過(guò)計(jì)算得到一些特征,如計(jì)算用戶的購(gòu)買力區(qū)間,平均每個(gè)月的購(gòu)買次數(shù)。特征選擇:假設(shè)你抽取了100個(gè)特征,通過(guò)信息增益、互信息等等指標(biāo)選擇了最重要的30個(gè)用于建模;特征變換:如有個(gè)特征是用戶的年薪,但是這個(gè)年薪的區(qū)間太大,我們做了一個(gè)函數(shù)變換,如log(年薪)。特征組合:如年齡區(qū)間+年薪區(qū)間做組合。
加入我們
公眾號(hào)內(nèi)回復(fù)「自學(xué)」,即可加入ML自學(xué)者俱樂(lè)部社群。可以投稿每周學(xué)習(xí)心得或者優(yōu)質(zhì)學(xué)習(xí)資料,助力團(tuán)體共同學(xué)習(xí)進(jìn)步。
上期精彩內(nèi)容
References
[1]?論文地址:?https://www.aclweb.org/anthology/P18-1001/
[2]?論文地址:?https://dl.acm.org/citation.cfm?id=3331212
[3]?論文地址:?http://www.shichuan.org/doc/74.pdf
[4]?第一個(gè)鏈接:?https://github.com/MASILab/SynSeg-Net
[5]?第二個(gè)鏈接:?https://github.com/znxlwm/pytorch-generative-model-collections
[6]?AD分類決賽總結(jié):?https://blog.csdn.net/herosunly/article/details/102708654
[7]?工業(yè)壽命預(yù)測(cè):?https://blog.csdn.net/herosunly/article/details/102711266
[8]?大數(shù)據(jù)應(yīng)用分類:?https://blog.csdn.net/herosunly/article/details/102711596
[9]?移動(dòng)反欺詐:?https://blog.csdn.net/herosunly/article/details/102713094
[10]?特征工程中的歸一化有什么作用:?https://www.zhihu.com/question/20455227/answer/325347915
[11]?如何解釋準(zhǔn)確率、召回率和F值:?http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/
[12]?特征抽取、特征選擇、變化組合區(qū)別:?https://www.zhihu.com/question/20716506/answer/45658573
總結(jié)
以上是生活随笔為你收集整理的ML 自学者周刊:第 5 期的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 李宏毅-ELMO、BERT、GPT视频笔
- 下一篇: 首发:吴恩达的 CS229的数学基础(线