泰文Unicode编码表及排版规则
前言:泰文Unicode編碼表及排版規(guī)則
泰文 Unicode字符表 泰文符號(hào)
字符數(shù)量統(tǒng)計(jì): 128 Unicode編碼范圍:0E00—0E7F代碼點(diǎn)
泰文是一個(gè)Unicode塊,包含泰文、Lanna Tai和Pali語言的字符。依據(jù)泰文工業(yè)標(biāo)準(zhǔn)620-2533。
范圍
U+0E00…U+0E7F (128 代碼位)
已經(jīng)分配:87代碼位
暫未使用:41個(gè)保留位
Unicode字符表
字符表鏈接:http://www.52unicode.com/thai-zifu
排版規(guī)則
一、字母編碼
這里只介紹泰文的Unicode編碼。Unicode編碼為雙字節(jié),前面為高字節(jié),后面為低字節(jié),這里都用十六進(jìn)制表示。如0E00表示一個(gè)空格,0E為高字節(jié),00為低字節(jié)。
泰文編碼和字母的對(duì)照關(guān)系如下:
編碼段: 0E00-0E16,0E17-0E2D,0E2E-0E30
泰文字符:????????????????????????????????????????????????
編碼段: 0E31-0E3A
泰文字符:
?? ? ? ? ? ? ? ?
編碼段: 0E3F-0E46
泰文字符:? ? ? ? ? ? ? ?
編碼段: 0E47-0E4E
泰文字符: ? ? ? ? ? ? ? ?
編碼段: 0E4F-0E5B
泰文字符:?????????????
二、拼寫規(guī)則
泰語是一種拼音文字。有元音,輔音和聲調(diào)。
2.1. 元音
元音有單元音和復(fù)元音之分,復(fù)元音是由兩個(gè)或三個(gè)單元音組成的。單元音可以位于輔音的上下左右各側(cè)(說明:下面的杠“_”表示輔音的位置)。
規(guī)則①:在輔音右邊的單元音
字符: -? -? -?
例子: ?? ?? ??
規(guī)則②:在輔音左邊的單元音
字符: ?- ?- ?- ?-?? ?-? ?-? ?-? ?-? ?-?
例子:?? ?? ?? ??? ???
規(guī)則③:在輔音上邊的單元音
字符: -? -? -? -?
例子: ??????
規(guī)則④:在輔音下邊的單元音
字符: -? -?
例子: ????
2.2 輔音
單輔音有中輔音,高輔音,低輔音,塞音,擦音等之分。它們與長(zhǎng)元音和短元音相拼時(shí),能夠影響或決定聲調(diào)。復(fù)輔音是由多個(gè)單輔音組成的。
單輔音:?????????????????????????????????????????
規(guī)則①:有輔音字母? 字母和元音字母? 外形相同,只能靠其位置進(jìn)行區(qū)分。
例子: ??
規(guī)則②:有輔音字符???,上面加元音或聲調(diào)時(shí),元音或聲調(diào)字符要略微向左移一些。
例子:?????????
2.3 聲調(diào)
泰文中有5個(gè)聲調(diào),只有第一聲不用標(biāo)出來。
聲調(diào): ? ? ? ?
規(guī)則①:聲調(diào)加在輔音的右上方。
例子:???
規(guī)則②:輔音上有元音,再加聲調(diào)符號(hào)時(shí),聲調(diào)符號(hào)要加在元音上。
例子:??????
2.4 尾音
尾音: -? -? -? -? -? -? -?
規(guī)則①:元音字母-? 后有尾音時(shí)。要把-?寫成-?,放在輔音和尾音之間的上方。
例子: 如??? 要寫成???
規(guī)則②:元音字母?-? 和?-? 后有尾音時(shí),把-? 寫成-?,放在輔音和尾音之間的上方。
例子: 如???? 寫成????
規(guī)則③:元音字母?-? 后有尾音時(shí),?-?省略不寫成。
例子: 如???? 寫成??
規(guī)則④:復(fù)元音-?? 后有尾音時(shí),要將去-?掉。
例子: 如???? 寫成???
規(guī)則⑤: -? 和-?? 讀音相同,詞義不同。
例子: 如???和???
2.5 數(shù)字
泰文有自己的數(shù)字符(0-9)。
數(shù)字字符:??????????
2.6 其他
其他符號(hào)??? ?(不發(fā)音符號(hào))?(重復(fù)符號(hào))?(簡(jiǎn)略符號(hào))
三、處理方式
根據(jù)上述的拼寫規(guī)則,可以把所有字符形象的分為如下幾類:
下面是類型,編碼,字符之間的對(duì)照關(guān)系。
編碼段:0E38-0E39
字符: ? ?
編碼段:0E01-0E10,0E11-0E1F,0E20-0E2E,0E32
字符:?????????????????????????????????????????????? ?
編碼段:0E31, 0E47,0E33-0E37,0E4C-0E4E
字符: ? ? ? ? ? ? ? ? ? ?
編碼段:0E48-0E4B
字符: ? ? ? ?
編碼段:0E2F,0E30,0E3A,0E40-0E46,0E5A-0E5B
字符: ?? ? ? ? ? ? ? ? ???
編碼段:0E00,0E3F,0E4F-0E59
字符: ? ???????????
編碼段:0E3B-0E3E,0E5B-0E7F
補(bǔ)充說明:
則可能出現(xiàn)的組合情況有:①②,①②③,①②④,①②③④,②③,②④,②③④,⑤和⑥。
代碼編寫
//泰文 上下標(biāo)字符 unicode
static int ThaiSup_Subs[] = {0x0e31, 0x0e33, 0x0e34, 0x0e35, 0x0e36, 0x0e37, 0x0e38, 0x0e39, 0x0e47, 0x0e48, 0x0e49, 0x0e4a, 0x0e4b, 0x0e4c, 0x0e4d, 0x0e4e};//泰文編碼范圍0E00-0E3a,0E3f-0E5b
bool isThai(int subunicode) {//泰文編碼范圍0E00-0E3a,0E3f-0E5b,if (((subunicode>0x0e00) && (subunicode<0x0e3a)) ||((subunicode>0x0e3f) && (subunicode<0x0e5b))){return true;}else {return false;} }UTF-8 (Unicode)
- u4e00-u9fa5 (中文)
- x3130-x318F (韓文)
- xAC00-xD7A3 (韓文)
- u0800-u4e00 (日文)
實(shí)際上發(fā)現(xiàn):
除了u4e00-u9fa5 (中文)之外,還有(0x3400, 0x4DB5)也是。
GB18030在GB13000.1的20902個(gè)漢字的基礎(chǔ)上增加了CJK擴(kuò)展A的6582個(gè)漢字(Unicode碼0x3400-0x4db5),一共收錄了27484個(gè)漢字。對(duì)應(yīng)的utf8也進(jìn)行了相應(yīng)增加。
參考鏈接:
Unicode字符表:https://www.52unicode.com/
漢字字符集編碼查詢:https://www.qqxiuzi.cn/bianma/zifuji.php
泰文排版規(guī)則:http://blog.sina.com.cn/s/blog_5d8cc6410100s2ux.html
Unicode百度百科:https://baike.baidu.com/item/Unicode/750500?fr=aladdin
LED點(diǎn)陣顯示:
泰文入庫(kù)問題:
泰文拆分問題:https://blog.csdn.net/cbbbc/article/details/47022337
完整的CJK Unicode范圍:https://blog.csdn.net/loseblue/article/details/2436578
總結(jié)
以上是生活随笔為你收集整理的泰文Unicode编码表及排版规则的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [css] 如何使用css实现跨浏览器
- 下一篇: InputFilter 和 TextWa