每天一点matlab——字符分割
生活随笔
收集整理的這篇文章主要介紹了
每天一点matlab——字符分割
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1.1字符分割的基礎(chǔ)
字符分割的
任務(wù)是把多行或多字符圖像中的每個字符從整個圖像中分割出來,成為單個字符。對于字符分割的問題常常不被重視,但是字符的正確分割對字符的識別是至關(guān)重要
的。由于字符字體存在著多樣性,所以在一般的字符識別系統(tǒng)中,字符識別之前要先對圖像進(jìn)行閾值化,然后再進(jìn)行行字切分,以分割出一個個具體的二值表示的字
符圖像點(diǎn)陣,作為單字符識別的輸入數(shù)據(jù)。由于獲得的文本圖像不但包含了組成文本的一個個字符,而且包含了字符行間距與字間的空白,甚至還會帶有各種標(biāo)點(diǎn)符
號,這就需要采用一定的處理技術(shù)將文本中的一個個字符切分出來,形成單個字的圖像陣列,以進(jìn)行單字識別處理。這就需要兩個步驟來完成,行切分和字切分。首
先由行切分得到一行行文本,然后在每行文本中進(jìn)行列切分得到一個個單獨(dú)的字符。 1.1.1行切分技術(shù)
行切分就是要將一行行字符切分出來,形成單行字符文本圖像數(shù)據(jù)。這里我們以含有漢字的圖像為例,介紹一下行切分技術(shù)。對于輸入的二值化漢字圖像從上到下逐行掃描并計(jì)算每個掃描行的像素,以獲取圖像的水
平
投影。我們會發(fā)現(xiàn)漢字圖像沿行方向的水平投影比較有規(guī)律,投影中的每個波峰與圖像中的每個文本行相對應(yīng),在相鄰的兩行之間有比較寬的一段投影信息為0,這
是對應(yīng)了相鄰兩行之間的空白區(qū)域。根據(jù)這個規(guī)律,對行切分比較容易,可以把整幅的漢字圖像在水平方向投影后,直接對漢字圖像進(jìn)行行切分。具體方法為:首先
分析投影圖像,找到投影波峰所對應(yīng)的文本行的位置,從而可以計(jì)算出每行的行距;其次對所有行的行距累加求和后,求出文本圖像的標(biāo)準(zhǔn)行距,以標(biāo)準(zhǔn)行距對漢字
圖像進(jìn)行行的粗切分;最后在每一個粗切分出的行附近上下掃描,進(jìn)行細(xì)微調(diào)整,選取最合適的分割位置。
4.1.2字切分技術(shù)
字切分是從切分出的文本圖像行中將單個的字符圖像切分出來。字切分的正確與否直接影響識別結(jié)果,是字符識別系統(tǒng)中比較難的部分。我們還是以單個的漢字切分為例來說明。
可
以借助漢字圖像行切分的思想,來確定字切分的主要方法:利用字與字之間的空白間隙在圖像行垂直投影上形成的空白間隔將單個的字符圖像切分出來。事實(shí)上,分
析圖像行的垂直投影可以發(fā)現(xiàn),垂直投影上的空白間隔部分不僅沒有行與行之間的空白間隔部分寬,而且分布也不均勻。是因?yàn)樵跐h字文本中一般漢字間距遠(yuǎn)不如行
間距明顯,同時漢字中有相當(dāng)數(shù)量漢字是左、右結(jié)構(gòu)或左、中、右結(jié)構(gòu)的,這些漢字圖像的垂直投影在一個單字的內(nèi)部也會出現(xiàn)空白間隙,使得文本漢字的字切分比
行切分困難。為了解決這個問題,可以利用漢字間的間隔一般大于漢字內(nèi)間隔這一特點(diǎn)先進(jìn)行漢字的粗切分,再根據(jù)漢字基本是個方塊圖形這一事實(shí)進(jìn)行細(xì)切分。具
體實(shí)現(xiàn)為:根據(jù)漢字的行切分,可以獲得漢字的高度信息,從而可以估計(jì)出漢字的基本寬度;對粗切分出的每個漢字,以此寬度信息進(jìn)行衡量,以粗切分的起始位置
為出發(fā)點(diǎn),向左右兩方向進(jìn)行搜索,對起始位置進(jìn)行細(xì)微的調(diào)整,從而使得字的切分更準(zhǔn)確。這種方法不僅可以保證單個漢字的內(nèi)部結(jié)構(gòu)不被分離,而且還避免了切
除漢字的邊緣,其切分結(jié)果基本提取出了完整的漢字,消除了筆劃的誤切除。
1.2車牌字符分割簡介
1.2.1車牌字符串的特點(diǎn)
車牌照上的字符串具有以下幾個特點(diǎn): (1)同一類的實(shí)際車牌中的字符位置是固定不變的,一個車牌上的所有字符的高寬比是相等的(除了“1” 外)。
(2)根據(jù)牌照種類的不同,有的牌照是有邊框的,不能直接進(jìn)行投影分割。
(3)車牌上的字符與背景對比較大,但是由于曝光、焦距等原因,字符產(chǎn)生橫向扭曲,而非字符區(qū)域時常也有高亮度區(qū)域。
(4)由于車牌自身的磨損等原因或采用的二值化算法的局限性,使得在圖像預(yù)處理之后,仍然存在斷裂的字符。
(5)車牌的字符串信息受到車牌污損及兩個鉚釘信息的影響。其中特點(diǎn)(1)是在牌照字符分割時的有利信息,如:字符固定的高寬比等。其余的特點(diǎn)都增加了車牌字符分割的難度。
字符分割的
任務(wù)是把多行或多字符圖像中的每個字符從整個圖像中分割出來,成為單個字符。對于字符分割的問題常常不被重視,但是字符的正確分割對字符的識別是至關(guān)重要
的。由于字符字體存在著多樣性,所以在一般的字符識別系統(tǒng)中,字符識別之前要先對圖像進(jìn)行閾值化,然后再進(jìn)行行字切分,以分割出一個個具體的二值表示的字
符圖像點(diǎn)陣,作為單字符識別的輸入數(shù)據(jù)。由于獲得的文本圖像不但包含了組成文本的一個個字符,而且包含了字符行間距與字間的空白,甚至還會帶有各種標(biāo)點(diǎn)符
號,這就需要采用一定的處理技術(shù)將文本中的一個個字符切分出來,形成單個字的圖像陣列,以進(jìn)行單字識別處理。這就需要兩個步驟來完成,行切分和字切分。首
先由行切分得到一行行文本,然后在每行文本中進(jìn)行列切分得到一個個單獨(dú)的字符。 1.1.1行切分技術(shù)
行切分就是要將一行行字符切分出來,形成單行字符文本圖像數(shù)據(jù)。這里我們以含有漢字的圖像為例,介紹一下行切分技術(shù)。對于輸入的二值化漢字圖像從上到下逐行掃描并計(jì)算每個掃描行的像素,以獲取圖像的水
平
投影。我們會發(fā)現(xiàn)漢字圖像沿行方向的水平投影比較有規(guī)律,投影中的每個波峰與圖像中的每個文本行相對應(yīng),在相鄰的兩行之間有比較寬的一段投影信息為0,這
是對應(yīng)了相鄰兩行之間的空白區(qū)域。根據(jù)這個規(guī)律,對行切分比較容易,可以把整幅的漢字圖像在水平方向投影后,直接對漢字圖像進(jìn)行行切分。具體方法為:首先
分析投影圖像,找到投影波峰所對應(yīng)的文本行的位置,從而可以計(jì)算出每行的行距;其次對所有行的行距累加求和后,求出文本圖像的標(biāo)準(zhǔn)行距,以標(biāo)準(zhǔn)行距對漢字
圖像進(jìn)行行的粗切分;最后在每一個粗切分出的行附近上下掃描,進(jìn)行細(xì)微調(diào)整,選取最合適的分割位置。
4.1.2字切分技術(shù)
字切分是從切分出的文本圖像行中將單個的字符圖像切分出來。字切分的正確與否直接影響識別結(jié)果,是字符識別系統(tǒng)中比較難的部分。我們還是以單個的漢字切分為例來說明。
可
以借助漢字圖像行切分的思想,來確定字切分的主要方法:利用字與字之間的空白間隙在圖像行垂直投影上形成的空白間隔將單個的字符圖像切分出來。事實(shí)上,分
析圖像行的垂直投影可以發(fā)現(xiàn),垂直投影上的空白間隔部分不僅沒有行與行之間的空白間隔部分寬,而且分布也不均勻。是因?yàn)樵跐h字文本中一般漢字間距遠(yuǎn)不如行
間距明顯,同時漢字中有相當(dāng)數(shù)量漢字是左、右結(jié)構(gòu)或左、中、右結(jié)構(gòu)的,這些漢字圖像的垂直投影在一個單字的內(nèi)部也會出現(xiàn)空白間隙,使得文本漢字的字切分比
行切分困難。為了解決這個問題,可以利用漢字間的間隔一般大于漢字內(nèi)間隔這一特點(diǎn)先進(jìn)行漢字的粗切分,再根據(jù)漢字基本是個方塊圖形這一事實(shí)進(jìn)行細(xì)切分。具
體實(shí)現(xiàn)為:根據(jù)漢字的行切分,可以獲得漢字的高度信息,從而可以估計(jì)出漢字的基本寬度;對粗切分出的每個漢字,以此寬度信息進(jìn)行衡量,以粗切分的起始位置
為出發(fā)點(diǎn),向左右兩方向進(jìn)行搜索,對起始位置進(jìn)行細(xì)微的調(diào)整,從而使得字的切分更準(zhǔn)確。這種方法不僅可以保證單個漢字的內(nèi)部結(jié)構(gòu)不被分離,而且還避免了切
除漢字的邊緣,其切分結(jié)果基本提取出了完整的漢字,消除了筆劃的誤切除。
1.2車牌字符分割簡介
1.2.1車牌字符串的特點(diǎn)
車牌照上的字符串具有以下幾個特點(diǎn): (1)同一類的實(shí)際車牌中的字符位置是固定不變的,一個車牌上的所有字符的高寬比是相等的(除了“1” 外)。
(2)根據(jù)牌照種類的不同,有的牌照是有邊框的,不能直接進(jìn)行投影分割。
(3)車牌上的字符與背景對比較大,但是由于曝光、焦距等原因,字符產(chǎn)生橫向扭曲,而非字符區(qū)域時常也有高亮度區(qū)域。
(4)由于車牌自身的磨損等原因或采用的二值化算法的局限性,使得在圖像預(yù)處理之后,仍然存在斷裂的字符。
(5)車牌的字符串信息受到車牌污損及兩個鉚釘信息的影響。其中特點(diǎn)(1)是在牌照字符分割時的有利信息,如:字符固定的高寬比等。其余的特點(diǎn)都增加了車牌字符分割的難度。
?
總結(jié)
以上是生活随笔為你收集整理的每天一点matlab——字符分割的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows安装syslog日志转发客
- 下一篇: matlab实现一阶低通滤波器,matl