日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > linux >内容正文

linux

Unicode编码Linux下的转换

發布時間:2025/5/22 linux 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Unicode编码Linux下的转换 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近得到一份Unicode編碼的文件,想轉換成utf-8(其實就是想轉成非Unicode)。

在網上找了很多文章,有很多人把utf-8理解為unicode,搞得亂哄哄的。請記住,下面的段落是講如何把 Unicode 編碼的文件 轉化為 非Unicode的方式。

?

在linux下用iconv命令,

iconv -f ucs-2 -t utf-8 myfile > destfile

搞了半天,發現,Unicode編碼(簡稱為ucs)其實分為

ucs-2be 和ucs-2se?? 一個是大端法(big-endian),一個是小端法(little-endian),也就是一個碼子(2byte)的字節序列不同。windows下是小端法,Linux平臺下是大端法.

因此,需要明確指出是那種ucs編碼。(比較奇怪的是,這個文件是linux平臺產生的,我運行iconv的也是在linux平臺,為什么ucs-2不是默認的ucs-2be呢)


iconv -f ucs-2be -t utf-8 myfile > destfile

就好了。

多說一點:

(1)

unicode有2-bytes和4-bytes兩種,稱為ucs-2和ucs-4.

比如a(ascii碼為 0x61),采用usc-2編碼,編碼成16進制數是? 0x0061

小端法(ucs-2le),字節流是?? 61 00

大端法(ucs-2be),字節流是 00 61

一個只有alphabetic字符的Unicode編碼文件,打開后,如果是 00XX 00XX 那么就是大端法(這個從我的文件里也驗證了)。

?

(2) utc-xxxx系列編碼和unicode

為什么會出現utf-xxx系列呢,utf的意思是 unicode transform format? 也就是為了傳輸unicode而定義的一種編碼。不管怎么說,它定義了一種編碼方式。一個字符,在utf-xxxx和unicode中有不同的編碼方式。同時,可以吧unicode理解為一種解決語言的解決方案,規定了一套映射關系。為了便于使用有定義了utf-xxx系列,utf-xxxx和unicode編碼相同的集合,碼字不同。

為什么需要unicode的傳輸模式呢:unicode中的00有可能是正常編碼,而非字符串結束標志。很多Linux下的程序,都不支持讀unicode(雙字節),而是支持multibyte(多字節)編碼,那么,00就會被認為是字符串結尾了。

更詳細的說明,參見

http://www.cl.cam.ac.uk/~mgk25/unicode.html#history? 中的 What is UTF-8?

轉載于:https://www.cnblogs.com/codejumper/archive/2012/10/11/2718053.html

總結

以上是生活随笔為你收集整理的Unicode编码Linux下的转换的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。