日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python中soup_python – 使用带有UTF-8的soup.get_text()

發布時間:2023/12/19 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python中soup_python – 使用带有UTF-8的soup.get_text() 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我需要使用BeautifulSoup從頁面獲取所有文本.在BeautifulSoup的文檔中,它顯示你可以做soup.get_text()來做到這一點.當我在reddit.com上嘗試這樣做時,我收到了這個錯誤:

UnicodeEncodeError in soup.py:16

'cp932' codec can't encode character u'\xa0' in position 2262: illegal multibyte sequence

我在我檢查的大多數網站上都遇到了類似的錯誤.

當我做了soup.prettify()時,我也遇到了類似的錯誤,但我通過將其更改為soup.prettify(‘UTF-8’)來修復它.有沒有什么辦法解決這一問題?提前致謝!

6月24日更新

我發現了一些似乎適用于其他人的代碼,但我仍然需要使用UTF-8而不是默認代碼.碼:

texts = soup.findAll(text=True)

def visible(element):

if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:

return False

elif re.match('', str(element)): return False

elif re.match('\n', str(element)): return False

return True

visible_texts = filter(visible, texts)

print visible_texts

但錯誤是不同的.進展?

UnicodeEncodeError in soup.py:29

'ascii' codec can't encode character u'\xbb' in position 1: ordinal not in range

(128)

總結

以上是生活随笔為你收集整理的python中soup_python – 使用带有UTF-8的soup.get_text()的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。