藏文印刷体: 乌金体,又称有头体
生活随笔
收集整理的這篇文章主要介紹了
藏文印刷体: 乌金体,又称有头体
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
藏文印刷體: 烏金體,又稱有頭體
摘要:
- (1) 藏文屬于拼音文字,基本字符由30個輔音字母和4個元音字符組成,其組成的現代藏文音節字數為592,包含572個藏文字丁。
- (2)OCR 系統 通常以字丁為單位進行識別,根據部分論文的不完全統計1000份圖片文檔覆蓋的字丁數大概為100個左右,
因此,保守估計,全面覆蓋字丁數,至少需要6000張文檔標注。 - (3)藏文標注時容易出現輸入編碼不統一的現象,需要在標注前提前統一。
1. 基本組成單元
1.1 基礎字符 character
藏文屬于拼音文字,由30個輔音字母,和4個元音字符組成。 這些字符按照一定的拼寫規則構成了藏文的音節字。1.2 增加字符
為了滿足語言翻譯或者語言發展變化的實際需要,輔音和元音在原有基礎上有所增加,增加后的輔音字符達到41個,元音字符達到15個- 增加的方式:
(1) 反寫
(2)組合
(3)添加輔助符號
1.3.其他字符
除了上述字符外還包括:數字符號,標點符號,變音符號,篇章符,敬重符,吟詠示意符,吟誦會意符,占星符合裝飾符。2. 藏文的音節字 syllable
每個音節必須包含一個基字,基字可帶前置、上置、下置、后置和再后置字母。現代藏文音節字的總個數為592,藏文字丁總數為572 (一個音節字按照中間縫隙切開,則該字符分成了 4個字丁)
OCR系統,多以字丁為單位。
3. 書寫形式:
書寫形式分印刷體的有頭字和手寫體的無頭字兩種;
還有一種從無頭字衍化而成了草書,它連筆較多,與有頭字差別較大。行款自左向右橫書,使用專門的標點符號
很多字母連寫,中間會加入很多音節點,類似英文里的空格。
4. 藏文識別的難點:
- (1) 藏文具有很多相似字符, 很多基礎輔音字符差異很小,帶來識別難度,需要增加標注數據。
- (2) 藏文獨特的疊字書寫方式,使得藏文結構的解析比較復雜,可以以字丁為單位涵蓋所有疊字結構,
根據部分論文統計,1000份圖片文檔覆蓋的字丁數大概為100多個,因此,保守估計,全面覆蓋字丁數,至少需要6000張文檔標注。 - (3) 關于藏文識別的字符編碼問題,可能會出現同形不同碼現象(因此在標注時需要統一編碼)
同形不同碼:由于藏文新增組合字符,不同的人在輸入時習慣不同,可能有人以整體編碼形式輸入,有人以原始字符組合輸入,導致字符編碼不同。
5. 關于工程需要解決的基礎問題:
- (1) 輸入法的選擇?
- (2) 如何獲取藏文字丁?
藏文編碼字符集的擴充集在linux 上的實現, 中科院軟件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491
參考文獻
[1] 龍從軍等, 中科院軟件所,藏文編碼字符集標準應用中的問題及對策
[2] 王維蘭等, 藏文識別中相似字丁的區分研究
[3] 李永忠等,藏文印刷體字符識別技術研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).
相關網站:
[1] 藏語雙語網 http://www.zanghansy.com/xzy/
[2] 藏語語言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
寫自定義目錄標題)
總結
以上是生活随笔為你收集整理的藏文印刷体: 乌金体,又称有头体的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: rgba通道转rgb,将RGBA颜色转换
- 下一篇: EffectiveJava3翻译 中英