當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

OCR技术发展综述与达观数据的实践经验

發布時間：2023/12/20 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 OCR技术发展综述与达观数据的实践经验小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

光學字符識別OCR技術（Optical Character Recognition）是指從圖像中自動提取文字信息的技術。這項技術橫跨了人工智能里的兩大領域：CV（計算機視覺）和NLP（自然語言處理），綜合使用了這兩大領域中的很多技術成果。

在過往40余年的技術發展歷程中，OCR始終具備很強的產業應用背景，是計算機領域里少數幾個一開始就由工業界和學術界雙輪驅動的領域。近年來OCR技術已經在工業界成熟落地應用，學術界里對此的研究熱度反而弱于其他方向。甚至有人認為OCR技術已經充分成熟，沒有更多研究必要了。然而隨著近年來智能文本處理IDP（Intelligent Document Processing）在工業界的逐步落地應用，OCR和IDP相結合的應用場景越來越多，用語義理解NLP的角度進一步去延伸OCR的應用，出現了很多更有產業應用價值的場景。本文回顧了OCR技術的發展歷程，并結合達觀數據在工程實踐方面的經驗，介紹與語義分析技術結合后，當前OCR技術的一些最新發展和落地經驗。

? OCR技術的發展歷程? ?

OCR技術的誕生其實比計算機的歷史還要悠久，早在1930年代，德國發明家Tausheck（陶舍克）和美國工程師Handel（漢德）分別申請了最早的OCR專利，這比計算機的誕生還要早20年時間。因為當年還完全沒有計算機以及相關外設（如今天廣泛使用的掃描儀或高拍儀），所以最早提出的OCR技術采用的是機械掩模和模板匹配的方法來處理打字機輸出的文檔。當時的技術雛形離實際應用還比較遙遠。

OCR技術真正開始進入辦公應用是到了1960年代，引領這項技術的是美國IBM公司。隨著二戰后美國經濟的騰飛，計算機開始進入企業辦公領域，在一些日常處理量大且步驟繁瑣的場景下OCR開始發揮應用價值。例如1965年紐約世博會展出的IBM1287機器就能自動識別英文字母和數字，且準確率很高。此后逐步被用于一些訂單編號的識別派發，和信封郵政編碼的識別和郵件分揀等任務中。

1980年代起，隨著日本經濟尤其是電子技術的飛躍，富士通、日立、東芝、NEC等日本科技公司紛紛入場。這個時期的研究特點是圖像采集的電子器件得到快速發展，光柵掃描、成像、電子化圖像傳輸等信號采集技術成長迅速，相應的輪廓提取、結構分析等軟件算法也開始出現。

在以精密電器制造見長的日本企業推動下，掃描儀等采集設備的效果、速度、成本有了長足的進步，對標準打印字符的識別效果越來越好，OCR系統開始普及應用。和其他很多高科技領域里“先從大學有了早期理論研究突破，然后逐步在產業界孵化出實用系統”的方式不同，在這個階段，OCR技術始終是由工業界主導并取得了良好的應用效果。唯一的例外是對手寫字符的識別。因為手寫字符的變化太大，各種連筆、涂改、變形等讓計算機辨認確實太難（甚至過于潦草的情況下讓人辨識都很難），所以作為OCR領域的研究分支，成為了學術界的一個研究熱點。尤其1990年代模式識別（Pattern Recognition）興起，激發了學術研究界對手寫字符識別的熱情。此時出現大名鼎鼎的MNIST數據集，由美國國家標準與技術研究所（NIST，National Institute of Standards and Technology）發起整理了來自250個不同人的手寫數字圖片。

??MNIST是OCR乃至模式分類領域最知名的入門數據集

此后大量的模式分類以及圖像處理論文都以MNIST作為基礎，進行各類特征抽取和模式分類的算法研究。至今一些大學人工智能的入門課程還會用MNIST數據集來跑試驗，可謂經久不衰。

為什么只有手寫字符集，不搞打印字符測試數據集？因為對打印字符的識別準確率已經極高（99.9%以上），沒有科研必要了……

此處順便一提，百度創始人李彥宏1996年在美國IDD公司工作時也參與了OCR技術研究，其中一篇優秀的研究成果發表在機器學習界知名學術期刊IEEE Transaction PAMI上。

百度李彥宏的OCR論文，發表于IEEE Trans on PAMI

21世紀后，OCR被進一步應用于各行各業里卡證票據的識別。針對的是日常生活中頻繁使用到的發票、身份證、銀行卡、營業執照、房產證、駕駛證、汽車牌照等實體證件。在這個階段，圖像掃描技術已經高度成熟了，所以技術研究基本集中在軟件算法方面，并細分為信息檢測（Detection）和識別（Recognition）兩個技術分支分別發展，本文后面有更詳細的技術介紹。

因為大部分常見的卡證票據都有相對固定的格式布局，所以通常只需要有足夠多的訓練樣本，通過樣本標注生成元素的模板定位，就能解決絕大部分問題，不用大費周折使用“智能化”的檢測算法。通俗地說，這類應用場景是”數據為王”。

自2015年之后OCR技術和應用又迎來了巨大的變化，這次主要來自兩個因素的推動。第一個因素是移動手機拍照的普及。在此之前，OCR的圖像通常來自于掃描儀、高拍儀等企業級專用采集設備，圖像的質量非常高，但因為固定在辦公桌面使用，不夠方便靈活，限制了應用場景，所以此前的OCR集中于企業級商用。而智能手機的迅速普及，讓我們每個人都有了一個“拍攝+上傳”的一體化終端，為OCR的應用普及帶來了新的歷史機遇，隨之而來產生了很多新的應用場景。例如各種個人證照、文件等的自助式拍攝和上傳，用于遠程申報和審批等事項，或者拍攝并識別文件進行內容自動處理等創新場景（例如教育領域的拍題搜答案等）。

這個因素也隨之帶來了一些新的技術問題，例如手機因為拍攝相對隨意，個人拍攝的水平參差不齊，會導致圖像存在陰影遮擋、角度畸變、失焦模糊等等一堆新的問題。也相應產生了一批解決這些問題的工程手段。（達觀數據陳運文）

另一個重要因素來自深度學習技術的巨大理論突破。在深度神經網絡的旋風刮到OCR領域之前，用于檢測和識別的技術可謂是百花齊放，例如各種各樣的信號處理（例如Fourier、Radon、Hough、Zernike）特征提煉方法、圖像結構的方法（交叉線、圓圈、橫豎線條）、各種算子（如SIFT、SURF、各類卷積算子等）等、以及各種映射技術等。針對一些專用的字符類型和特殊應用場景，還有專門構造的人工特征提取技術。

但深度學習時代里通過多層網絡結構來自動進行特征學習，顛覆了這些傳統的人工特征提取過程，效果也有明顯的改善。近年來學術界的論文已經是神經網絡一統江湖了。加上之前限制深度學習的算力成本大幅度降低，新的更復雜的網絡結構層出不窮，將OCR技術的效果不斷推上新的臺階。

在“智能手機+深度學習”這兩個因素共同助推下，近年來OCR技術的研發迎來了三個新的熱點方向，分別是：

OCR與智能文本處理（IDP）相結合，進行無固定格式文檔的語義理解和結構化解析，不僅識別文字本身，而且理解文字的版面、結構、表格元素、段落內容等，從而完成對文本要素信息的還原和結構化抽取工作，并用于智能文檔審閱處理等場景

OCR與專業領域的符號識別相結合，如數學公式符號、物理公式、化學分子結構圖、建筑圖紙等等，實現專業領域的應用，如拍圖搜題，圖紙審核等場景

OCR與開放場景的文字識別相結合（常稱為STR，Scene Text Recognition），例如路牌、店面招牌、商標文字、戶外廣告識別等，用于交通、戶外消費、自動駕駛等場景

這三類當前的熱點應用，都有各自的技術難點，也分別衍生出了相應的產品技術解決方案。其中OCR與IDP的結合是目前達觀數據的主要研究和應用方向，接下來會進行一些技術分享。

? OCR技術的發展情況? ?

當前學術界普遍將OCR處理分為?圖像預處理、文本檢測（Detection）、文本識別（Recognition）這三大步驟，或者也有將檢測和識別合并，直接用端到端學習（End-to-End）進行處理工作。

圖像預處理用于對待處理的原始圖像進行一些矯正操作，以助于降低后續的檢測和識別難度。例如使用一些工程化技術來調整圖像對比度、旋轉對齊、進行局部裁剪、折痕和墨點等干擾信息的淡化等都屬于相對基礎的預處理操作。因為在使用高拍儀或掃描儀等專業采集設備時，圖像品質普遍較好，所以在2010年以前對圖像預處理方面的系統性的研究并不多，更多集中于對局部的畸變進行校正（Image Rectifier）或圖像去噪。

經典的圖像預處理經常用到各類濾波器（如高斯濾波、BM3D等）進行去噪，另外一些信號處理手段也常用于對圖像進行旋轉對齊，橫平豎直的文檔會讓后續的檢測和識別變得容易得多。

智能手機拍攝普及后，光照不均勻、陰影遮擋、局部扭曲、甚至對焦模糊等復雜情況層出不窮，所以在實際工程應用中，圖像預處理的好壞對后續識別精度價值很大，盡管這個環節作為OCR的一個非核心環節，受到學術圈的重視較少，各大學術會議上也幾乎罕見這方面的研究論文（近年有幾篇不錯的Text deblurring論文）。但學術和工程的目標是不一樣的，工程應用要在瑣碎中見真章，會配置很多業務規則和處理步驟。

順便一提，為了增加標注樣本的數量，提升算法在不同場景下的魯棒性，生成對抗網絡（GAN）的思想在OCR的樣本生成方面也很常用。尤其在標注樣本不充足的情況下，用GAN網絡結合人工標注和積累的真實樣本，日拱一卒不斷擴大訓練樣本庫，也是常用的做法。

文本檢測是OCR的最重要環節之一（另一個是文本識別），傳統的文本檢測使用了各種人工構造的特征，例如常見的二值投影、旋轉仿射變換、各類圖像算子如HoG算子、SURF算子，DPM模型（Deformable Parts Model）等來定位文本行列位置。在2010年前最常見的技術手段為滑動窗口檢測、或基于連通區域檢測的方法，由下而上逐步擬合出文本塊。

因為構造特征的過程偏定制，很難針對不同的文檔類型形成大而全的普適方案。在具有特定結構規律的OCR領域，尤其是卡證票據這類常見檢測應用場景，傳統的模板+滑動窗口定位檢測的方法是管用的。

近10年來隨著深度學習技術的飛速發展，多種多樣的神經網絡結構（如稱為XXNET或XXNN）的檢測效果明顯優于傳統人工構造的特征，當前主流的檢測技術由深度學習來主導。

文本檢測中常見的思想有兩大類，一類是基于回歸的方法，另一類是基于分割的方法。

基于回歸的檢測方法，基本思路是先利用若干個默認錨點（Anchor），然后想辦法進行合并形成文字框box。2016年ECCV發表的CTPN是基于回歸思想的經典技術（Detecting Text in Natural Image with Connectionist Text Proposal Network，論文出自中科院，為我們中國研究者點贊）。

CTPN是基于回歸的文本檢測中的經典方法

CTPN綜合了CNN和LSTM的網絡特性，在假設文本已經是水平橫向分布的前提條件下，做了以下步驟的操作：

VGG16位backbone提取空間特征，取conv5層輸出特征

在垂直vertical方向進行feature map，并進行reshape

引入Bi-LSTM，從而更好地利用文字連貫性的特征來提升檢測效果

使用類似Faster R-CNN的RPN網絡獲得text proposals

對獲得的大量text proposals，使用NMS（Non-Maximum Suppression，非極大值抑制），或改進后的Soft NMS，Weighted NMS等，過濾和合并文本框。（這個階段的工作和通用的目標檢測任務相似）

對得到的水平方向的文本小框合成一個完整的橫向文本行，并針對少量傾斜情況做一些矯正

CTPN綜合了上述若干種網絡結構的優點，有優秀的檢測效果，尤其對邊框矩形的四個頂點的識別很準確，對OCR檢測技術的后續發展有承前啟后的意義。例如此后的SegLink算法沿用了CTPN的思想，并引入了SSD和旋轉角度學習的方法，來解決CTPN遺留的多角度文本檢測的問題。

基于回歸的方法對相對工整（橫平豎直）的書面文檔文本的檢測效果很好，但對各類自然場景下的文本的檢測效果難以保障（例如各類彎曲形變的店鋪招牌）。所以有另一類思想是源于圖像分割（image segmentation）的方法來進行文本檢測，即：

先從像素層面做分類，判別每一個像素點是否屬于一個文本目標，得到文本區域的概率圖，然后利用polygon等來繪制出這些候選區域的最小包圍曲線，相當于把一堆散落的像素塊像串聯珍珠那樣，鏈接到一起來形成邊界框。

PSENet網絡是基于分割的文本檢測技術，對明顯彎曲的文本有良好效果

基于分割的方面近年優秀的成果包括2019年南京大學等組成的研究團隊發表于CVPR的PSENet網絡，通過漸進式的尺度擴張網絡（Progressive Scale Expansion）來學習文本分割區域，其主干網絡本質是ResNet，通過使用不同尺度的Kernel，預測不同收縮比例的文本區域，并逐個擴大檢測到的文本區域。

PSENet的實質是邊界學習方法的變體，可以有效解決任意形狀相鄰文本的檢測問題。具體如網絡結構和檢測效果如上圖所示。

2021年華南理工大學在CVPR提出的FCENet，提出了用傅里葉變換來對文本外圍的包絡線進行參數表示的方法，通過設計合適的模型預測來擬合任意形狀文本包圍框，從而實現自然場景文本檢測中對于高度彎曲文本實例的檢測精度的提升。

在圖像處理和模式識別界最近幾年知名國際學術會議，如CVPR、ICCV，AAAI或ICDAR上，每年都有一些最新的網絡改進模型被提出（且大量優秀成果都來自中國本土的科研團隊，可喜可賀），以下是幾篇值得延伸閱讀的論文。

CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network，ECCV2016）

SegLink（Detecting Oriented Text in Natural Images by Linking Segments，CVPR2017）

EAST（EAST: An Efficient and Accurate Scene Text Detector，CVPR2017）

PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network，CVPR2019）

DBNet（Real-time Scene Text Detection with Differentiable Binarization，AAAI2019）

FCENet（Fourier Contour Embedding for Arbitrary-Shaped Text Detection，CVPR2021）

文本識別技術? ?

CRNN網絡（循環卷積神經網絡）是識別領域里最為經典的方法，直至今日仍然被廣泛使用。CRNN網絡的技術思想是用深度卷積Convolutional來生成圖像基礎特征，再使用Bi-LSTM循環網絡（雙向長短時記憶網絡，能吸收上下文語義信息）進行時序特征訓練（這一步利用文本序列的前后特征能有效提升效果），最后引入CTC損失函數來實現端對端的不定長序列識別，解決訓練時字符無法對齊的問題。

論文原文見：An End-to-End Trainable Neural Network for Image-based?

Sequence Recognition and Its Application to Scene Text Recognition，值得一提的是CRNN由華中科技大學白翔老師團隊提出，在OCR領域是極為優秀的研究成果。

近年來隨著Attention機制在NLP領域取得了很好的效果，將CRNN和Attention結合也成為OCR識別的新思路，在CRNN網絡輸出層之后加上attention機制，把GRU網絡的輸出作為encoder的輸入，對其做attention，并通過softmax輸出，也有非常優異的效果。

此處特別值得推薦的是來自NAVER的OCR團隊hwalsuklee同學Github上匯總的OCR知識庫：https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

其中包括了近幾年學術界在OCR檢測和識別領域的一些知名論文、ICDAR的數據測試集評分和部分開源代碼，對系統性了解學術界在OCR領域的成果很有幫助，推薦感興趣的朋友們閱讀，是一個非常好的資料學習庫。

OCR的工程應用開發：從OCR到OCR Pro

在當前學術圈，OCR研究的熱點集中在室外自然場景下的應用。因為這些工作的難度高，效果還不太好，商業化應用還在早期，所以學術研究很熱（技術成熟并大量工程應用的領域反而理論研究就會變少），每年都有很多論文發表。這些自然場景STR工作其實和自然語言理解的關系不大，而和計算機視覺（CV）更接近，尤其是通用目標檢測（Object Detection）。甚至很多自然場景下的OCR算法干脆就借用了end-to-end的通用框架，例如Yolo這類大名鼎鼎的通用檢測系統。

而在實際OCR的落地應用界，“卡證票據”的識別已經非常成熟，所以當前的應用熱點集中在無固定格式文檔的識別和理解上。

下圖解釋了有固定格式的“卡證票據”的處理，和無固定格式的文檔資料處理的差異。?

?無固定格式的文檔資料OCR是當前應用的熱點和難點

“卡證票據”的特點是格式相對明確和固定（例如身份證，姓名、性別、身份證號等各個信息的位置是明確的），所以檢測（Detection）和識別（Recognition）要容易的多，通過設定模板來檢測定位，進而進行文字識別來輸出各類Key：Value型的結構化抽取結果是相對容易的。

而我們日常辦公所經常面對的無固定格式的文檔資料，因為版式變化多樣，需要進行提取的內容可能分布在不同的位置，因而很難簡單用模板匹配的方式來進行檢測、識別、抽取三個動作，需要更復雜的操作步驟，我們稱為OCR Pro系統。

針對無固定格式的OCR Pro系統，一個待處理的文檔圖片（掃描件或手機翻拍件）要依次進行版面分析（Layout Analysis），文字識別（Recognition）、信息提取（Intelligent Document Processing）、行業知識校驗（Domain Knowledge Recheck）等步驟。

使用版面分析的原因是日常辦公文檔的構成元素非常復雜，不僅有常見的文字塊，還會出現標題、目錄、印章、簽名、表格、圖例、頁眉頁腳等各類元素，版面分析技術的目的就是要通過頁面各類元素信息的視覺特征、結合文本語義特征和各類embedding信號，將文檔“庖丁解牛”分解為若干元素，為后續的識別和結構化抽取打好基礎。

版面分析技術在OCR和IDP中有重大意義

在版面分析中，有一類常見且重要的特殊元素——表格。因為OCR的最終目的是將文檔里最關鍵的內容自動化提取出來，表格中往往包含非常密集的重要信息，因此對表格的解析和語義理解技術相對更為特殊，在后面的章節中將進一步對該技術進行詳細介紹。

和自然場景下（in the wild）的OCR檢測不同，針對辦公文檔的OCR因為文字的橫豎布局以及背景圖片質量明顯比自然場景的圖片要高得多，也用不著太多來自于通用目標檢測（Object Detection）的技巧。在辦公文檔OCR的實際產業應用里，版面分析技術事實上代替了文本檢測技術發揮實際作用。

文檔處理環節里的文字識別則技術相對成熟，因為大部分文字都以打印字符的形式存在，通常情況下這個環節下的文字識別技術已經非常成熟和準確了。當前達觀的一些研究主要分布在以下一些相對特殊的場合：

01?去除文檔的底紋或水印干擾

工作文檔采用帶有底紋的特殊紙張，或者有的人為打上水印（例如一些重大項目的投標書）

02?提取和理解關鍵性元素

書面文本處理中存在一些特殊種類的元素，例如印章、手寫簽名等元素就是國內（包括東亞地區各國家）合同里極為重要的組成部分，需要專門的模型進行處理。而且還需要對印章的文字內容進行提取和識別（通常為圓形），并用于后續和合同里簽署主體進行對比審核。手寫簽名提取后也會用于進行比對

03?識別和處理特殊符號

書面文檔中經常有一些表達語義的專用符號，如√（對勾）、編號①、角標（常見于注釋提示）、下標（常見于數理化公式）等

達觀OCR的工程化實踐

要開發出真正可以落地使用的OCR產品，需要面對真實使用情況里多種多樣的問題。這些問題往往顯得非常的瑣碎，但是只有實實在在把這些瑣碎的問題解決好，才能讓產品落地好用。

就以最為常見的表格的OCR解析為例，其實我們日常文檔中遇到的表格情況非常多，以下圖為例，這些表格存在各類分欄，水印、跨頁、揉搓、陰影、印章遮擋等各種各樣的問題，需要逐一有技術來應對。（達觀數據陳運文）

另外表格中還存在無邊框表格（常見于一些上市公司財報），或單元格嵌套的復雜表格（常見于一些復雜行政審批事項填報表），都需要進行處理。如下圖所示。

達觀數據對表格的OCR處理和語義理解

近年來基于深度學習的表格檢測和識別算法在ICDAR（International Conference on Document Analysis and Recognition）會議上有很多原創性的成果，如A Genetic-based Search for Adaptive Table Recognition in Spreadsheets論文所提出的方法，將表格中的單元格分為Header、Data和Metadata等類型，然后相鄰單元格根據標簽異同組成不同的區域，這些區域根據相鄰關系則構成了一個標簽區域圖，巧妙的將表格結構識別任務變成了子圖分割任務，方法接著定義了將10個衡量因素加權求和來評判分割質量，用于確定優化目標。然后使用序列二次規劃的方法來自動調節權重，并綜合運用了遺傳算法和一些啟發式方法、或窮舉搜索等來進行最優化。

ICDAR中基于深度學習的表格檢測和識別算法

近年來通過ICDAR的技術競賽，有一些優秀的方法涌現出來，在這個領域里國內也出現了很多研究團隊，如北京大學的高良才老師提出了很多優秀的研究成果。

和一些直接套用計算機視覺檢測的方法不同，表格因為有橫列縱列的重復分布特征，所以利用這個特征來進行識別往往能取得更有針對性的效果，ICDAR2019論文Table structure extraction with Bi-directional Gated Recurrent Unit Networks提出了使用循環神經網絡來進行表格結構識別任務。在一系列基礎性的二值化和膨脹預處理后，將圖像按像素行或列放入獨立的兩個兩層雙向循環神經網絡，同時將某個像素行或列的相鄰兩個鄰居考慮進去。接著將循環神經網絡的輸出行列特征分類為是否屬于行列分隔符區域，最終把預測分隔區域的中點作為最終的行列分割結果。GRU網絡的效果相比LSTM整體略好。

達觀的實踐總結與展望

在達觀實踐OCR產品過程中，我們發現一旦版面分析工作做扎實后，文本檢測就變得很容易了。而完成文本識別后，利用語義上下文技術，對內容進行結構化提取就是IDP系統來完成的工作了，Attention以及NLP的一些模型可以很好發揮長處。

達觀工程化OCR處理流程

如上圖所示，為了更好地提升效果，充分運用行業知識校驗對提升OCR效果也起到了重要作用。學術研究里通常不會涉及外部領域知識，但在實際落地應用中構造專業領域的知識圖譜對每一個垂直細分領域的文本OCR任務都有巨大的收益。

例如財務報表OCR中，各類數字之間隱含的勾稽關系（如利潤表中的“主營業務成本”與資產負債表中的“應付賬款”以及現金流浪表中的“購買商務和勞務支出”可以進行交叉校驗）可以用于對OCR提取的數字進行校驗和糾正，大幅提升準確率。再比如IPO招股書中的企業經營數據，會在相應的審計報告中再次出現，如果引入投行的專業經驗，那么對OCR的處理效果會有很大幫助。最后，人工復檢工作以及相應的結果自動反饋機制也非常重要，人工復檢不僅能讓系統最終實現100%的準確率，并且人工糾正后的結果能不斷作為訓練樣本用于矯正原有系統的問題，從而能讓系統越來越“聰明”，逐步逼近更高的識別準確率。

在達觀近年來將IDP、知識圖譜和OCR進行融合來進行工程實踐的過程中，我們深刻領會到一個優秀的產品一定要實事求是的吸收各種思想的優點，既要有傳統方法的長處，也要借鑒最新網絡模型的優點。對數據的積累和標注是一個持之以恒的事情，產品的使用細節體驗，人機交互的過程也需要不斷地完善和提升。好的產品從來都不是一蹴而就的，而是需要反復打磨和持續改進的。隨著OCR技術近年來不斷向前發展，和各類下游的應用場景，如文檔審核、語義理解、RPA等的結合日益增多，OCR的應用還將發揮越來越大的價值。（達觀數據陳運文）

作者簡介

陳運文，達觀數據董事長兼CEO。復旦大學計算機博士，優秀博士論文獎獲得者，國家“萬人計劃”專家，2021年中國青年創業獎，中國五四青年獎章，上海市十大青年科技杰出貢獻獎獲得者，上海市優秀技術帶頭人，第九屆上海青年科技英才；國際計算機學會（ACM）、電子電器工程師學會（IEEE）、中國計算機學會（CCF）、中國人工智能學會（CAAI）高級會員，上海市計算機學會多媒體分會副會長；上海市首批人工智能正高級職稱獲得者。在人工智能領域擁有近百項國家技術發明專利，是復旦大學、上海財經大學、上海外國語學院聘任的校外研究生導師，在IEEE Transactions、SIGKDD等國際頂級學術期刊和會議上發表數十篇高水平科研成果論文，出版《智能RPA實戰》、人工智能經典著作《智能Web 算法》（第2 版），參與撰寫《數據實踐之美》等論著；曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最頂尖的大數據競賽的冠亞軍榮譽。曾擔任盛大文學首席數據官、騰訊文學高級總監、百度核心技術研發工程師。在機器學習、自然語言處理、搜索推薦等領域有豐富的研究和工程經驗。

總結

以上是生活随笔為你收集整理的OCR技术发展综述与达观数据的实践经验的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SQLAlchemy()分页器pagin
下一篇：理解：复杂度是O(log^n) 就是二