常见的数据增强项目和论文介绍
點擊上方“算法猿的成長“,關注公眾號,選擇加“星標“或“置頂”
總第 121 篇文章,本文大約? 1100 字,閱讀大約需要? 3 分鐘
在機器學習項目中,數據集對算法模型的性能是有很大的影響的,特別是現(xiàn)在深度學習,對于數據集的要求就更高了,經常我們都可能會遇到數據集數量太少的情況,這時候除了再人工搜集新的數據,另外一個做法就是數據增強,從已有的數據通過一些方法,包括一些算法來進行拓展,得到更多數量的數據集。
今天介紹的是一個介紹了幾個常見的數據增強項目和其他相關的論文代碼的 Github 項目,其 github 地址:
https://github.com/CrazyVertigo/awesome-data-augmentation
常見的項目
imgaug
這個項目的 star 數量是已經有 8k 多了,顯示使用的數量也有 2k多,克隆倉庫的有1k多,的GitHub地址:
https://github.com/aleju/imgaug
它可以實現(xiàn)的效果包括添加噪音、仿射變換、裁剪、翻轉、旋轉等,其效果圖如下所示:
Albumentations
這第二個項目是 2018年的一篇論文《Albumentations: fast and flexible image augmentations》的實現(xiàn)代碼,論文地址:
https://arxiv.org/abs/1809.06839v1
github 項目已經有 4k 的star,地址如下:
https://github.com/albumentations-team/albumentations
該項目的特點有:
速度比大部分的庫都要快;
基于 numpy 和 OpenCV 兩個庫,并選擇最合適的一個
接口簡單,靈活
大量的多種的變換方法實現(xiàn)
易于拓展應用到其他的任務或者庫
支持的變換操作對象有圖像、masks、關鍵點、邊界框
支持 python 3.5-3.7 的版本
可以和 PyTorch 結合使用
已經被應用到很多深度學習的競賽中,包括 Kaggle、topcoder,CVPR,MICCAI
作者是 Kaggle Masters
其效果如下所示,可以看到能實現(xiàn)的方法包括顏色空間的變換、亮度調整、模糊、壓縮、黑白
Augmentor
第三個項目同樣來自一篇論文《Biomedical image augmentation using Augmentor》,其論文地址:
https://www.ncbi.nlm.nih.gov/pubmed/30989173
github star 的數量也有 3.8k了,其地址:
https://github.com/mdbloice/Augmentor
官方文檔:
http://augmentor.readthedocs.io/
實現(xiàn)的效果如下所示:
論文和代碼
Mixup
來自 ICLR 2018 的論文:《Mixup: BEYOND EMPIRICAL RISK MINIMIZATION》
論文地址:https://arxiv.org/abs/1710.09412
GitHub 地址:https://github.com/facebookresearch/mixup-cifar10
效果如下所示:
Cutout
2017年的論文:《Improved Regularization of Convolutional Neural Networks with Cutout》
論文地址:https://arxiv.org/abs/1708.04552
github 地址:https://github.com/uoguelph-mlrg/Cutout
Cutmix
ICCV 2019 的論文:《CutMix:Regularization Strategy to Train Strong Classi?ers with Localizable Features》
論文地址:https://arxiv.org/pdf/1905.04899.pdf
github地址: https://github.com/clovaai/CutMix-PyTorch
Augmix
ICLR 2020 的論文:《AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY》
論文地址:https://arxiv.org/pdf/1912.02781.pdf
github 地址:https://github.com/google-research/augmix
fast-autoaugment
NeurlIPS 2019 的論文《 Fast AutoAugment》
論文地址: https://arxiv.org/abs/1905.00397 github 地址: https://github.com/kakaobrain/fast-autoaugment
AutoAugment
CVPR 2019 的論文 《AutoAugment:Learning Augmentation Strategies from Data》
論文地址: https://arxiv.org/pdf/1805.09501v3.pdf
github地址: https://github.com/DeepVoltaire/AutoAugment
RandAugment
ICLR 2020 的論文《RandAugment: Practical automated data augmentation with a reduced search space》
論文地址:https://arxiv.org/pdf/1912.02781.pdf github地址: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet
GridMask
2020年的論文題目《GridMask Data Augmentation》
論文地址:https://arxiv.org/abs/2001.04086 github地址: https://github.com/akuxcw/GridMask 知乎的論文解讀: https://zhuanlan.zhihu.com/p/103992528
imagecorruptions
2019 年的論文《Benchmarking Robustness in Object Detection:Autonomous Driving when Winter is Coming》
論文地址:https://arxiv.org/pdf/1912.02781.pdf
github 地址:https://github.com/CrazyVertigo/imagecorruptions
CycleGAN
ICCV 2017 年的一篇論文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkss》,也是 GAN 領域非常有名的一篇論文
論文地址:https://arxiv.org/pdf/1703.10593.pdf
github 地址:
https://github.com/junyanz/CycleGAN
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
Small Object Augmentation
2019 年的論文《Augmentation for small object detection》
論文地址:https://arxiv.org/pdf/1902.07296.pdf
github 地址:https://github.com/gmayday1997/SmallObjectAugmentation
知乎閱讀筆記:https://zhuanlan.zhihu.com/p/64635490
標注工具
labelImg
2017 年的一個標注工具,目前有超過 9k star 的github項目,地址為:
https://github.com/tzutalin/labelImg
它可以進行圖片的標注,以及繪制邊界框,如下所示:
labelme
同樣是2017年開源的一個標注工具,目前有 4k+ 的star,github 地址:
https://github.com/wkentaro/labelme
這是一個可以實現(xiàn)多種形狀的標注,比如多邊形、圓形、矩形、直線、點等,如下所示:
這個介紹數據增強方面的項目和論文代碼,以及標注工具的 GitHub 項目就介紹到這里,再次放上其github 地址:
https://github.com/CrazyVertigo/awesome-data-augmentation
可以點擊下方“閱讀原文”直接跳轉。
精選AI文章
1.?機器學習入門學習資料推薦
2.初學者的機器學習入門實戰(zhàn)教程!
3.常用機器學習算法匯總比較(完)
4.特征工程之數據預處理(上)
5.實戰(zhàn)|手把手教你訓練一個基于Keras的多標簽圖像分類器
精選python文章
1.?Python 基礎入門--簡介和環(huán)境配置
2.?python版代碼整潔之道
3.?快速入門 Jupyter notebook
4.?Jupyter 進階教程
5.?10個高效的pandas技巧
精選教程資源文章
1.?[資源分享] TensorFlow 官方中文版教程來了
2.?[資源]推薦一些Python書籍和教程,入門和進階的都有!
3.?[Github項目推薦] 推薦三個助你更好利用Github的工具
4.?Github上的各大高校資料以及國外公開課視頻
5.?GitHub上有哪些比較好的計算機視覺/機器視覺的項目?
歡迎關注我的微信公眾號--算法猿的成長,或者掃描下方的二維碼,大家一起交流,學習和進步!
?如果覺得不錯,在看、轉發(fā)就是對小編的一個支持!
總結
以上是生活随笔為你收集整理的常见的数据增强项目和论文介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html幻灯片滚动效果,jQuery实现
- 下一篇: [圣诞大礼][android控]平板电脑