當(dāng)前位置:
首頁 >
印刷体汉字粗分类
發(fā)布時(shí)間:2023/12/14
60
豆豆
本文中粗分類器采用了最小距離分類器。用漢字的黑色像素點(diǎn)個(gè)數(shù)來進(jìn)行粗分類,粗分類的目的是縮小輸入樣本的待匹配樣本數(shù)目。首先將6404個(gè)字符作為訓(xùn)練樣本提取樣本的像素特征,再根據(jù)漢字的復(fù)雜程度將其大致分為五類,然后用提取測試樣本特征。
采用最小距離法與五個(gè)分類比較,將其歸為距離最小的一類。
(1)
size=hight*width;
black=bsum/size;
size為圖片面積,bsum為圖片中黑色像素點(diǎn)個(gè)數(shù),black為平均黑色像素點(diǎn)個(gè)數(shù)。
將black分為五類w1,w2,w3,w4,w5
計(jì)算每個(gè)分類的均值Ci
Ci=black/Ni;
Ni為第wi類中的樣本總個(gè)數(shù);
(2)
輸入測試樣本,測試樣本的特征為x,與Ci進(jìn)行匹配,比較絕對(duì)距離
x∈min|x-Ci|
(3)
通過將大樣本集分為多個(gè)小樣本集,使得駛?cè)霕颖驹谧R(shí)別過程中減少了不必要的計(jì)算,而且是每個(gè)樣本能夠迅速定位到新的類別中,簡化了后續(xù)分類器的計(jì)算量和復(fù)雜度。
總結(jié)
- 上一篇: linux 统计代码行数,shell 命
- 下一篇: 本科毕业论文引用、编写英文参考文献格式的