日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Unicode编码Linux下的转换

發布時間:2025/5/22 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Unicode编码Linux下的转换 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近得到一份Unicode編碼的文件,想轉換成utf-8(其實就是想轉成非Unicode)。

在網上找了很多文章,有很多人把utf-8理解為unicode,搞得亂哄哄的。請記住,下面的段落是講如何把 Unicode 編碼的文件 轉化為 非Unicode的方式。

?

在linux下用iconv命令,

iconv -f ucs-2 -t utf-8 myfile > destfile

搞了半天,發現,Unicode編碼(簡稱為ucs)其實分為

ucs-2be 和ucs-2se?? 一個是大端法(big-endian),一個是小端法(little-endian),也就是一個碼子(2byte)的字節序列不同。windows下是小端法,Linux平臺下是大端法.

因此,需要明確指出是那種ucs編碼。(比較奇怪的是,這個文件是linux平臺產生的,我運行iconv的也是在linux平臺,為什么ucs-2不是默認的ucs-2be呢)


iconv -f ucs-2be -t utf-8 myfile > destfile

就好了。

多說一點:

(1)

unicode有2-bytes和4-bytes兩種,稱為ucs-2和ucs-4.

比如a(ascii碼為 0x61),采用usc-2編碼,編碼成16進制數是? 0x0061

小端法(ucs-2le),字節流是?? 61 00

大端法(ucs-2be),字節流是 00 61

一個只有alphabetic字符的Unicode編碼文件,打開后,如果是 00XX 00XX 那么就是大端法(這個從我的文件里也驗證了)。

?

(2) utc-xxxx系列編碼和unicode

為什么會出現utf-xxx系列呢,utf的意思是 unicode transform format? 也就是為了傳輸unicode而定義的一種編碼。不管怎么說,它定義了一種編碼方式。一個字符,在utf-xxxx和unicode中有不同的編碼方式。同時,可以吧unicode理解為一種解決語言的解決方案,規定了一套映射關系。為了便于使用有定義了utf-xxx系列,utf-xxxx和unicode編碼相同的集合,碼字不同。

為什么需要unicode的傳輸模式呢:unicode中的00有可能是正常編碼,而非字符串結束標志。很多Linux下的程序,都不支持讀unicode(雙字節),而是支持multibyte(多字節)編碼,那么,00就會被認為是字符串結尾了。

更詳細的說明,參見

http://www.cl.cam.ac.uk/~mgk25/unicode.html#history? 中的 What is UTF-8?

轉載于:https://www.cnblogs.com/codejumper/archive/2012/10/11/2718053.html

總結

以上是生活随笔為你收集整理的Unicode编码Linux下的转换的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。