计算机视觉概述
關(guān)于計算機視覺的介紹性文章,包括計算機視覺的定義,和人類視覺的區(qū)別以及涉及到的學(xué)科等等。
1. 什么是計算機視覺
計算機視覺既是工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性重要研究領(lǐng)域。計算機視覺是一門綜合性的學(xué)科,它已經(jīng)吸引了來自各個學(xué)科的研究者參加到對它的研究之中。其中包括計算機科學(xué)和工程、信號處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué),神經(jīng)生理學(xué)和認知科學(xué)等。
視覺是各個應(yīng)用領(lǐng)域,如制造業(yè)、檢驗、文檔分析、醫(yī)療診斷,和軍事等領(lǐng)域中各種智能/自主系統(tǒng)中不可分割的一部分。由于它的重要性,一些先進國家,例如美國把對計算機視覺的研究列為對經(jīng)濟和科學(xué)有廣泛影響的科學(xué)和工程中的重大基本問題,即所謂的重大挑戰(zhàn)(grandchallenge)。"計算機視覺的挑戰(zhàn)是要為計算機和機器人開發(fā)具有與人類水平相當?shù)囊曈X能力。機器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。"[Neg91]作為一門學(xué)科,計算機視覺開始于60年代初,但在計算機視覺的基本研究中的許多重要進展是在80年代取得的。現(xiàn)在計算機視覺已成為一門不同于人工智能、圖象處理、模式識別等相關(guān)領(lǐng)域的成熟學(xué)科。計算機視覺與人類視覺密切相關(guān),對人類視覺有一個正確的認識將對計算機視覺的研究非常有益。為此我們將先介紹人類視覺。
1.1 人類視覺
感覺是人的大腦與周圍世界聯(lián)系的窗口,它的任務(wù)是識別周圍的物體,并告訴這些物體之間的關(guān)系。我們的思維活動是以我們對客觀世界與環(huán)境的認識為基礎(chǔ)的,而感覺則是外界是客觀世界與我們對環(huán)境的認識之間的橋梁,使我們的思維與周圍世界建立某種對應(yīng)關(guān)系。視覺則是人最重要的感覺,它是人的主要感覺來源,人類認識外界信息的80%來自視覺。人有多種感覺,但對人的智力產(chǎn)生影響的主要是視覺和聽覺。味覺和嗅覺是豐富多樣的,但很少有人去思考它們。在視覺和聽覺中形狀、色彩、運動、聲音等就很容易被結(jié)合成各種明確和高度復(fù)雜、多樣的空間和時間的組織結(jié)構(gòu)。所以這兩種感覺就成了理智活動得以行使和發(fā)揮作用的非常合適的媒介和環(huán)境。但人聽到的聲音要想具有意義還需要聯(lián)系其它的感性材料。而視覺則不同,它是一種高度清晰的媒介,它提供關(guān)于外界世界中各種物體和事件的豐富信息。因此它是思維的一種最基本的工具。
視覺對正常人來說是生而有之,毫不費力的能力。但實際上視覺系統(tǒng)所完成的功能卻十分復(fù)雜的。有人認為視覺本身就包含了思維的一切基本因素。設(shè)想你要在一個會場中尋找一位朋友,呈現(xiàn)在你眼前的是由參加會議的人、桌、椅、主席臺等組成的復(fù)雜景物。眼睛得到這些信息以后先要對景物的各部分進行分類,然后從中選出與朋友的外表有關(guān)的特征作出判斷,那么在人的眼睛視網(wǎng)膜上映照的景物成象是否就能直接提供判斷時所需要的有關(guān)特征呢?不是的,這里需要大腦的思考。例如,雖然人在不同距離處觀察同一物體時在眼睛中成象的大小是不同的。但人們在觀察某人以便估計他的身高時卻不會因為他在近處而感到他高些,也不會因他在遠處而感到他矮些。這是由于大腦根據(jù)被觀察物體的距離和與周圍物體的比較,并依靠有關(guān)的知識對輸入的圖象信息進行處理,解釋的結(jié)果。如果你是在一個燈光暗淡的劇院中尋找朋友,這個問題就變得更為困難。
你剛走進劇院時開始會感到一片漆黑看不清東西,過了幾分鐘你的眼睛變得習(xí)慣于在黑暗中觀察。事實上你的視覺系統(tǒng)在此期間中對微光變得更敏感了。但這時許多本來可用的信息喪失了,物體可能難以與背景相區(qū)分,許多細節(jié)難以分辨。即使這樣人也總能認出朋友。總之,視覺是一個復(fù)雜的感知和思維的過程,視覺器官-眼睛接受外界的刺激信息,而大腦對這些信息通過復(fù)雜的機理進行處理和解釋,使這些刺激具有明確的物理意義。
從以上分析我們還可以看到敏感(Sansation)、感覺(Perception)、認知(Cognition)這三個概念之間的聯(lián)系和差別。敏感是把外界的各種刺激轉(zhuǎn)換成人體神經(jīng)系統(tǒng)能夠接受的生物電信號。它所完成的是信號的轉(zhuǎn)換,并不涉及對信號的理解。例如,人眼是視覺的敏感器官,它使光信號通過視網(wǎng)膜轉(zhuǎn)換電信號。與攝象機的光電傳感器相似,視網(wǎng)膜的感光細胞對光信號在平面上進行采樣,產(chǎn)生點陣形式的電信號,所不同的僅是攝象機的空間采樣是均勻的,而視網(wǎng)膜的采樣是不均勻的,在中央凹附近采樣分辨率高,而在周圍的分辨率低。而感覺的任務(wù)是把敏感器官的各種輸入轉(zhuǎn)換和處理成為對外部世界的理解。例如,對視覺來說就是能說出周圍世界中有什么東西和這些東西之間的空間關(guān)系。這些都是關(guān)于周圍世界的概念。從輸入的點陣形式的信號到形式對客觀世界的各種概念其中要經(jīng)過復(fù)雜的信息處理和推理。而認知是以人們對周圍客觀世界的概念為基礎(chǔ)的。如果沒有感覺這個人與外部世界的橋梁或窗口,人的思維活動就換去基本的依據(jù)。
1.2 計算機視覺
人類正在進入信息時代,計算機將越來越廣泛地進入幾乎所有領(lǐng)域。一方面是更多未經(jīng)計算機專業(yè)訓(xùn)練的人也需要應(yīng)用計算機,而另一方面是計算機的功能越來越強,使用方法越來越復(fù)雜。這就使人在進行交談和通訊時的靈活性與目前在使用計算機時所要求的嚴格和死板之間產(chǎn)生了尖銳的矛盾。人可通過視覺和聽覺,語言與外界交換信息,并且可用不同的方式表示相同的含義,而目前的計算機卻要求嚴格按照各種程序語言來編寫程序,只有這樣計算機才能運行。為使更多的人能使用復(fù)雜的計算機,必須改變過去的那種讓人來適應(yīng)計算機,來死記硬背計算機的使用規(guī)則的情況。而是反過來讓計算機來適應(yīng)人的習(xí)慣和要求,以人所習(xí)慣的方式與人進行信息交換,也就是讓計算機具有視覺、聽覺和說話等能力。這時計算機必須具有邏輯推理和決策的能力。具有上述能力的計算機就是智能計算機。
智能計算機不但使計算機更便于為人們所使用,同時如果用這樣的計算機來控制各種自動化裝置特別是智能機器人,就可以使這些自動化系統(tǒng)和智能機器人具有適應(yīng)環(huán)境,和自主作出決策的能力。這就可以在各種場合取代人的繁重工作,或代替人到各種危險和惡劣環(huán)境中完成任務(wù)。
計算機視覺就是用各種成象系統(tǒng)代替視覺器官作為輸入敏感手段,由計算機來代替大腦完成處理和解釋。計算機視覺的最終研究目標就是使計算機能象人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。要經(jīng)過長期的努力才能達到的目標。因此,在實現(xiàn)最終目標以前,人們努力的中期目標是建立一種視覺系統(tǒng),這個系統(tǒng)能依據(jù)視覺敏感和反饋的某種程度的智能完成一定的任務(wù)。例如,計算機視覺的一個重要應(yīng)用領(lǐng)域就是自主車輛的視覺導(dǎo)航,目前還沒有條件實現(xiàn)象人那樣能識別和理解任何環(huán)境,完成自主導(dǎo)航的系統(tǒng)。因此,目前人們努力的研究目標是實現(xiàn)在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺輔助駕駛系統(tǒng)。這里要指出的一點是在計算機視覺系統(tǒng)中計算機起代替人腦的作用,但并不意味著計算機必須按人類視覺的方法完成視覺信息的處理。計算機視覺可以而且應(yīng)該根據(jù)計算機系統(tǒng)的特點來進行視覺信息的處理。但是,人類視系統(tǒng)是迄今為止,人們所知道的功能最強大和完善的視覺系統(tǒng)。如在以下的章節(jié)中會看到的那樣,對人類視覺處理機制的研究將給計算機視覺的研究提供啟發(fā)和指導(dǎo)。因此,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,也是一個非常重要和信人感興趣的研究領(lǐng)域。這方面的研究被稱為計算視覺(ComputationalVision)。計算視覺可被認為是計算機視覺中的一個研究領(lǐng)域。
有不少學(xué)科的研究目標與計算機視覺相近或與此有關(guān)。這些學(xué)科中包括圖象處理、模式識別或圖象識別、景物分析、圖象理解等。由于歷史發(fā)展或領(lǐng)域本身的特點這些學(xué)科互有差別,但又有某種程度的相互重迭。為了清晰起見,我們把這些與計算機視覺有關(guān)的學(xué)科研究目標和方法的角度加以歸納。
圖象處理技術(shù)把輸入圖象轉(zhuǎn)換成具有所希望特性的另一幅圖象。例如,可通過處理使輸出圖象有較高的信-噪比,或通過增強處理突出圖象的細節(jié),以便于操作員的檢驗。在計算機視覺研究中經(jīng)常利用圖象處理技術(shù)進行預(yù)處理和特征抽取。
模式識別技術(shù)根據(jù)從圖象抽取的統(tǒng)計特性或結(jié)構(gòu)信息,把圖象分成予定的類別。例如,文字識別或指紋識別。在計算機視覺中模式識別技術(shù)經(jīng)常用于對圖象中的某些部分,例如分割區(qū)域的識別和分類。
給定一幅圖象,圖象理解程序不僅描述圖象本身,而且描述和解釋圖象所代表的景物,以便對圖象代表的內(nèi)容作出決定。在人工智能視覺研究的初期經(jīng)常使用景物分析這個術(shù)語,以強調(diào)二維圖象與三維景物之間的區(qū)別。圖象理解除了需要復(fù)雜的圖象處理以外還需要具有關(guān)于景物成象的物理規(guī)律的知識以及與景物內(nèi)容有關(guān)的知識。
在建立計算機視覺系統(tǒng)時需要用到上述學(xué)科中的有關(guān)技術(shù),但計算機視覺研究的內(nèi)容要比這些學(xué)科更為廣泛。計算機視覺的研究與人類視覺的研究密切相關(guān)(見1.3.5中的論述)。為實現(xiàn)建立與人的視覺系統(tǒng)相類似的通用計算機視覺系統(tǒng)的目標需要建立人類視覺的計算機理論。
本文轉(zhuǎn)自:http://www.chinaai.org/ip/image-processing/computer-vision.html總結(jié)
- 上一篇: 利用vcftools比较两个vcf文件
- 下一篇: 模式识别扫盲