每天接触大量论文,看看他们是怎样写笔记的 | PaperDaily #09
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?9?篇文章你是不是也經常在讀完一篇論文之后沒多久就忘記內容了?
其實這只是人類記憶曲線的正常表現,不要因此而出現「真沒用」「白讀了」之類的想法,讀論文也并不是為了「記憶」,而是為了「思考」。當然,有一個準確清晰的記憶可以讓思考變得更加輕松。
也許你會想「論文筆記?沒寫過!我水平不夠啊!」別擔心,本期我們精選了四位PaperWeekly 社區用戶的論文筆記,大家在增長知識點的同時,還能快速 get 怎樣寫一份「真正有用的論文筆記」。
多文本摘要
■?論文 | Improving Multi-Document Summarization via Text Classification
■ 鏈接 | http://www.paperweekly.site/papers/982
■ 作者 | JingwenJessica
提出問題?
文章指出目前 MDS 遇到的問題是用于訓練的 datasets 太少,而文本分類相關的 datasets 更多一些。?
作者觀察?
作者觀察到的一個事實是不同分類的文章,摘要的風格也不同。颶風類的文章摘要側重于描述颶風的路徑和帶來的損傷;而自傳類的文章摘要側重于人物的簡歷和貢獻。?
提出模型?
基于上述兩點,作者提出了 TCSum 系統,TCSum 是結合文本分類的多文本摘要,TCSum 系統的 contributions :?
a. 利用文本分類的 datasets 優化了用于摘要的 document representations;?
b. 不同分類的文章生成不同風格的摘要;
c. 不需要人工標注 features。
TCSum 系統?
包括 text classification model 和 summarization model 兩部分,用同一個 document embedding。?
? 利用 CNN 模型生成 document embedding:在 pre-trained word embedding 上用 tanh 做 convolution operations,用 max-over-time polling 做 polling operations 生成 sentence embedding,Sentence embedding 做 average pooling 即為 documentt embedding。
? Text Classification Model:document embedding 上用 softmax 后作為文本分類的概率分布。用 cross entropy 做為 cost function。
? Summarization Model:Document embedding 上用 tanh 后作為文本摘要“含義”的特征向量,這就是文中提到的 transformed embedding (summary embedding)。 做 tanh 時用到的權重 w 也和文本分類相關。句子 salience score:summary embedding 和 sentence embedding 做 cosine similarity,pairwise ranking strategy。
? Datasets:DUC,the New York Times (NYT) Annotated Corpus
情感分類
■?論文 |?Learning to Generate Reviews and Discovering Sentiment
■ 鏈接 |?http://www.paperweekly.site/papers/683
■ 作者 |?xwzhong
Note
1. 文章使用 Amazon 商品評論數據(38G)訓練了一個 1 層 4096 個 unit 的語言模型,這 4096 個 unit 中,發現了一個 sentiment unit,能指示待 encoded 中每個字(或詞)的情感極性(正面或負面),另外該句子 encoded 后,還能判斷整個句子的情感極性,在 IMDB 數據集上,錯誤率降低到 7.7%(state of art 方法為 5.91%)。?
2. 訓練好語言模型后,通過很少的標注數據(30個)就能超過在 Stanford sentiment treebank 數據集下的 state of art 方法。
3. 在使用語言模型生成句子時,能通過人工直接控制 sentiment unit 的值來決定所生成文本的情感。?
Comment
1. 語言模型仍有很多未知的潛力,對于 hidden unit,我們對其仍知之甚少。
2. 文本中沒提及如何尋找這個 sentiment unit,但是可以嘗試使用已標注的相近領域情感分類數據來找。
3. 其它 unit 是不是也反映了數據在某方面的特點,已知的有句子長度,會包含語義上的轉折 unit??
4. seq2seq 會不會有同樣的 unit??
5. 如果 language model 有很多理想的 unit(大家想通過這些 unit 來控制生成),是不是會有 lang2seq 模型(language to sequence),這樣既利用了 language model 能用大量數據無監督學習的特點,還能利用 seq2seq end2end 的特性。?
Practice
1. 通過領域訓練得到的 language model 在特定領域使用時,如果語料的 overlap 不高,效果不一定特別好,因此可在通用領域訓練好的 model 基礎上,用待解決問題領域的數據進行 fine tuning。其它運用還有 word2vec。?
2. 利用好這個已發現的 sentiment unit,不僅可以減少人工標注數據來訓練情感分類器,還能直接控制文本生成等等。?
More Reading
[1] http://it.sohu.com/20170407/n486996650.shtml?
[2] https://github.com/openai/generating-reviews-discovering-sentiment
生成式對抗網絡
■?論文 |?Adversarial Generation of Training Examples for Vehicle License Plate Recognition
■ 鏈接 |?http://www.paperweekly.site/papers/421
■ 作者 |?WarBean
在 OCR 文字識別中,可利用的數據主要有三類:采集自真實世界的有標注樣本(labelled real sample),采集自真實世界的無標注樣本(unlabelled real sample),以及人工生成的有標注樣本(labelled generated sample)。一般來說,labelled real 需要標注人員手動標注,獲得成本高,數量沒法太多;unlabelled real 采集成本低,可以比前者多很多;而 labelled generated 則要多少有多少。?
如果光用 labelled real 訓練模型,很容易因為數量太少而使模型過擬合,所以一個常見的做法是先用大量的 labelled generated 預訓練,再用少量 labelled real 去 fine tune,這種做法往往可以獲得不錯的效果。?
問題是人工生成的樣本往往和真實樣本有差異,所以用它們來預訓練會給模型參數帶來一定的先驗偏差,從而損害其在真實樣本分布上的性能;另一方面,如此大量的 unlabelled real 用不上,也實在是一種浪費。如果能夠利用上這些 unlabelled real 數據,來幫助模型更好地學習真實分布下的識別模型,就能夠取得更好的識別準確率;或者反過來說,在達到同等準確率的條件下,需要的人工標注量可以更少。?
這篇論文就嘗試在車牌識別這個具體任務上實現上述效果,其大體思路是:?
1. 先生成一堆 labelled generated 的圖像;
2. 將 labelled generated 和 unlabelled real 兩堆圖片放一起,訓練一個 CycleGAN 實現這兩個 domain 之間的相互轉換;?
3. 利用訓練好的 CycleGAN 將大量 generated 的圖像轉換為 real 圖像樣式,同時又保持其圖像中的文本內容不變,因此我們能夠知道其 ground truth label;
4. 如此一來就可以得到大量的仿照真實樣本的 labelled data,用這些轉換后的數據去預訓練識別模型;
5. 再在 labelled real 上 fine tune,最終可以獲得明顯的性能提升。?
下面 4 幅圖分別是人工生成樣本、CycleGAN 轉換樣本、CycleWGAN(本文改進的一個變種)轉換樣本、真實樣本的樣子:
不得不說這篇論文對付的場景還是偏簡單的,首先是真實數據的樣式其實沒有太復雜,其次是人工生成的樣本就已經很接近真實數據了,要轉換過去并不會太困難。
文中給出了多項對比實驗結果,下面是兩個比較有代表性的:
第一個表是在沒有用到 labelled real 的條件下,識別模型分別在隨機初始化、在人工生成樣本上訓練、在 CycleGAN 轉換樣本上訓練、在 CycleWGAN 轉換樣本上訓練后,在真實測試集上的整行識別準確率。?
可以看出這四種情況是一個比一個更加接近真實分布的。
第二個表就用到 labelled real 去 fine tune 了,同樣可以看出人工生成樣本加進來有提升,但是 CycleWGAN 轉換樣本加進來后提升得更多。
生成式對抗網絡
■?論文 |?Progressive Growing of GANs for Improved Quality, Stability, and Variation
■ 鏈接 |?http://www.paperweekly.site/papers/1008
■ 作者 |?lgpang
這篇文章就像 YY 小說中的主角一樣自帶主角光環,從 GAN 存在的眾多問題出發,提出了一個個新穎但是無往不利的方法。只是看結果就震撼莫名,通篇讀下來更是覺得 NVIDIA 一下子放了好多大招(至少對于 GAN 這個分支來說)。?
1. 以往的 GAN 生成低分辨率圖片穩定迅速,但生成高分辨率圖片困難重重。這篇文章從簡單的低分辨率圖片開始同時訓練生成器和判別器,然后逐層增加分辨率,讓訓練的難度每層只增加一點點。感覺就像是算法里面的暴力搜索到二分法搜索,大大提高了高分辨率圖片的生成速度及質量。?
2. 以往沒有好的辦法去判斷 GAN 生成的圖片是好是壞,很多時候需要肉眼來看,有很大的主觀性,而且人能檢查的樣本空間不夠大。文章的第 5 節介紹了如何用統計的方法來直觀的判斷生成樣本的好壞,采用的思路是在各個尺度上抽取 7x7 個像素的局域碎片,比較生成圖片與訓練圖片的局域結構相似性。?
3. GAN 生成圖像的多樣性不好量化,當判別器過強時生成器可能會塌縮到單個類。這篇文章不添加任何超參數,只是將所有屬性在所有空間位置的統計標準差求平均,作為卷積神經網絡 Feature Map 的一個常量通道,就得到了更好的多樣性 -- 贊。?
4. 使用了一種“local response normalization”方法來對 FeatureMap 做歸一化,不清楚與 BatchNormalization 的效果相比有沒有提升。?
5. 在 WGAN-GP 的正規化項中使用非常大的 gamma 因子,從公式上看當生成圖片與訓練圖片相差過大時,大的 gamma 因子可以讓生成分布快速漂移到訓練圖像分布。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
? ? ? ? ??
?游戲時間
?GAN 還是不 GAN?
GAN主題論文共讀小組
論文提名√在線投票√論文共讀√
活動形式:語音直播 + 協同批注
?
?游戲規則?
1. 自由推薦任何與GAN有關的論文
2. 投票支持你想讀的論文
3. 每周六根據投票結果選出本期論文
?
長按識別二維碼,馬上報名
*添加好友請注明“GAN”
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的每天接触大量论文,看看他们是怎样写笔记的 | PaperDaily #09的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 免费课程 | 云脑机器学习实战训练营,中
- 下一篇: 14 篇论文为你呈现「迁移学习」研究全貌