當前位置：首頁 > 编程语言 > python >内容正文

python

Python UnicodeEncodeError 和 surrogates not allowed 报错处理

發(fā)布時間：2023/12/16 python 58 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python UnicodeEncodeError 和 surrogates not allowed 报错处理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

打印不合法的文件名

問題

你的程序獲取了一個目錄中的文件名列表，但是當它試著去打印文件名的時候程序崩潰，出現(xiàn)了?UnicodeEncodeError?異常和一條奇怪的消息——?surrogates?not?allowed?。

解決方案

當打印未知的文件名時，使用下面的方法可以避免這樣的錯誤：

def bad_filename(filename):return repr(filename)[1:-1]try:print(filename) except UnicodeEncodeError:print(bad_filename(filename))

討論

這一小節(jié)討論的是在編寫必須處理文件系統(tǒng)的程序時一個不太常見但又很棘手的問題。默認情況下，Python假定所有文件名都已經(jīng)根據(jù)?sys.getfilesystemencoding()?的值編碼過了。但是，有一些文件系統(tǒng)并沒有強制要求這樣做，因此允許創(chuàng)建文件名沒有正確編碼的文件。這種情況不太常見，但是總會有些用戶冒險這樣做或者是無意之中這樣做了( 可能是在一個有缺陷的代碼中給?open()?函數(shù)傳遞了一個不合規(guī)范的文件名)。

當執(zhí)行類似?os.listdir()?這樣的函數(shù)時，這些不合規(guī)范的文件名就會讓Python陷入困境。一方面，它不能僅僅只是丟棄這些不合格的名字。而另一方面，它又不能將這些文件名轉(zhuǎn)換為正確的文本字符串。 Python對這個問題的解決方案是從文件名中獲取未解碼的字節(jié)值比如?\xhh?并將它映射成Unicode字符?\udchh?表示的所謂的”代理編碼”。下面一個例子演示了當一個不合格目錄列表中含有一個文件名為b?d.txt(使用Latin-1而不是UTF-8編碼)時的樣子：

>>> import os >>> files = os.listdir('.') >>> files ['spam.py', 'b\udce4d.txt', 'foo.txt'] >>>

如果你有代碼需要操作文件名或者將文件名傳遞給?open()?這樣的函數(shù)，一切都能正常工作。只有當你想要輸出文件名時才會碰到些麻煩(比如打印輸出到屏幕或日志文件等)。特別的，當你想打印上面的文件名列表時，你的程序就會崩潰：

>>> for name in files: ... print(name) ... spam.py Traceback (most recent call last):File "<stdin>", line 2, in <module> UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in position 1: surrogates not allowed >>>

程序崩潰的原因就是字符?\udce4?是一個非法的Unicode字符。它其實是一個被稱為代理字符對的雙字符組合的后半部分。由于缺少了前半部分，因此它是個非法的Unicode。所以，唯一能成功輸出的方法就是當遇到不合法文件名時采取相應的補救措施。比如可以將上述代碼修改如下：

>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py b\udce4d.txt foo.txt >>>

在?bad_filename()?函數(shù)中怎樣處置取決于你自己。另外一個選擇就是通過某種方式重新編碼，示例如下：

def bad_filename(filename):temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape')return temp.decode('latin-1')

譯者注:

surrogateescape: 這種是Python在絕大部分面向OS的API中所使用的錯誤處理器，它能以一種優(yōu)雅的方式處理由操作系統(tǒng)提供的數(shù)據(jù)的編碼問題。在解碼出錯時會將出錯字節(jié)存儲到一個很少被使用到的Unicode編碼范圍內(nèi)。在編碼時將那些隱藏值又還原回原先解碼失敗的字節(jié)序列。它不僅對于OS API非常有用，也能很容易的處理其他情況下的編碼錯誤。

使用這個版本產(chǎn)生的輸出如下：

>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py b?d.txt foo.txt >>>

總結

以上是生活随笔為你收集整理的Python UnicodeEncodeError 和 surrogates not allowed 报错处理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：为Ribbon Client自定义配置
下一篇：送送送！这本python少儿编程书籍竟然