厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
摘要:?近日,阿里安全圖靈實驗室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然場景多語言文本檢測競賽中刷新了世界最好成績,以73.52%的Hmean排名第一。
原文地址:http://click.aliyun.com/m/43719/
近日,阿里安全圖靈實驗室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然場景多語言文本檢測競賽中刷新了世界最好成績,以73.52%的Hmean排名第一。(競賽結(jié)果頁面:http://rrc.cvc.uab.es/?ch=8&com=evaluation&task=1)
據(jù)了解,ICDAR(International Conference on Document Analysis and Recognition)具有OCR領(lǐng)域的奧斯卡盛會之稱,是全球OCR領(lǐng)域公認最權(quán)威的比賽之一。
當前,OCR技術(shù)被廣泛應(yīng)用于多個領(lǐng)域。從名片、發(fā)票、銀行卡等票據(jù)的數(shù)字化到室外街道商店索引,路標路牌識別;再到圖片、視頻文字內(nèi)容理解與內(nèi)容安全,OCR技術(shù)都發(fā)揮著越來越重要的作用。
阿里安全圖靈實驗室研究人員稱,在技術(shù)上,文本檢測和識別需要應(yīng)付各種考驗和挑戰(zhàn),如自然場景下光照的影響,物體的遮擋,文字大小、比例、角度的變化,圖像視頻中文字的模糊等等。ICDAR2017 MLT競賽包含了中、日、韓、拉丁(英、法、德、意)、阿拉伯和孟加拉等9種語言,其圖像采集自各種各樣的場景,其中的文本的長度、字體、尺寸、顏色千變?nèi)f化,同時還包含了許多真實場景的噪聲包括光照、遮擋、傾斜、文字堆疊、文字鑲嵌、透視變化等等,這對于OCR算法的適應(yīng)能力更具挑戰(zhàn)性。
為攻克這些難題,阿里安全圖靈實驗室的研究人員設(shè)計了基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型和算法。
據(jù)介紹,圖靈實驗室的研究人員在文字檢測模型方面,采用深度卷積神經(jīng)網(wǎng)絡(luò)獲得更深層的圖像特征;并利用多尺度特征和非對稱卷積核獲得更好的感受視野,從而適應(yīng)各種環(huán)境,各種大小、比例、角度的文字。此外,由于框架采用創(chuàng)新性的檢測策略,因此相較于傳統(tǒng)的RCNN-based方案,在檢測速度上有很大提升。在文字識別模型,圖靈實驗室的研究人員在主流方案的基礎(chǔ)上,做了全新的探索和研究,從而獲得了更為有效的識別模型,在保證識別準確率的前提下,提高了識別效率。
阿里安全圖靈實驗室研究人員表示,ATL Cangjie OCR提供在線同步、異步通用OCR文字檢測和識別服務(wù),以及離線ODPS服務(wù),為圖片文字內(nèi)容理解與內(nèi)容安全提供強有力的技術(shù)支撐。該模型已經(jīng)全面支撐阿里生態(tài)中的商品內(nèi)容安全、業(yè)務(wù)安全、平臺治理、評價、交互、認證等多個業(yè)務(wù)場景,同時,還通過阿里云盾-內(nèi)容安全(綠網(wǎng))產(chǎn)品,輸出給第三方客戶使用。
目前,ATL Cangjie OCR服務(wù)日均調(diào)用量幾億次,可為客戶提供穩(wěn)定的技術(shù)保障。
識別以下二維碼,干貨
總結(jié)
以上是生活随笔為你收集整理的厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云史上最大技术升级:面向万物智能的飞
- 下一篇: 深度学习之优化详解:batch norm