日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python2.x环境下unicode乱码转中文显示的2种解决方案总结

發布時間:2023/12/20 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python2.x环境下unicode乱码转中文显示的2种解决方案总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

方法見代碼注釋,python2.x環境下,注意,僅僅適用于unicode亂碼情況,不適用于 類似于這種/xae的亂碼情況

# -*- coding: utf-8 -*-# # from gensim import corpora,models,similarities # texts = [['human', 'interface', 'computer','interface'], # ['survey', 'user', 'computer', 'system', 'response', 'time'], # ['eps', 'user', 'interface', 'system'], # ['system', 'human', 'system', 'eps'], # ['user', 'response', 'time'], # ['trees'], # ['graph', 'trees'], # ['graph', 'minors', 'trees'], # ['graph', 'minors', 'survey']] # #以上大列表中,每個自列表代表一個文本分詞后的結果 # def print_dict(dict): # for key in dict: # print type(key),key,str(dict[key]),'\n' # print # # # dictionary = corpora.Dictionary(texts)#這個應該是分詞后的結果,Dictionary用來去重 # corpus = [dictionary.doc2bow(text)for text in texts] # print_dict(dict(dictionary.items())) # print("------------------------------------------------") # print("file numbers=",dictionary.num_docs) # print("------------------------------------------------") # #返回的結果中,全部都是list,可以看到,corpus下標是0~8,表示文本數目是9個 # #返回的list中的元祖()中,是(id,在單個文本中出現該word的次數)、 # #而一個list中包含的tuple數量=分詞后word數量-重復的word數量 # #舉例:['human', 'interface', 'computer','interface']這個文本的 # #分詞后word數量是4個,而由于interface重復了一次,所以tuple數量=4-1=3 # # 所以最終對應的corpus[0]輸出的list中是3個tuple,而不是4個 # print corpus[0] # print corpus[1] # print corpus[2] # print corpus[3] # print corpus[4] # print corpus[5] # print corpus[6] # print corpus[7] # print corpus[8] # print("--------------------------------------------------") # lsi=models.LsiModel(corpus)#輸入總文本的稀疏矩陣 # print lsi#TfidfModel(num_docs=9, num_nnz=28),num_nnz是每個文件中不重復詞個數的和 # corpus_lsi=lsi[corpus] # query='human science good interface' # #下面是把詢問的問題轉化為稀疏向量 # print("--------------------------------------------------") # vec_bow=dictionary.doc2bow(query.split()) # print vec_bow # vec_lsi=lsi[vec_bow] # print vec_lsi#這個結果是把query的詞匯中,篩選出屬于dictionary的部分,然后分別計算tf-idf值 # print("----------------以下三行代碼計算query和候選文本的相似度---------------------------------") # # # index=similarities.MatrixSimilarity(corpus_lsi)#similarities是一個函數名,不要自己卵用 # print "index=",index # sims=index[vec_lsi] # print "sims=",sims#輸出列表,元素數量=文本數量 # print("---------------------------") # similarity=list(sims)#輸出列表,元素數量=文本數量 # print "similarity=",similarity # print("----------------以上三行代碼計算query和候選文本的相似度----------------------------") # store_path='/home/appleyuchi/coai_fudan/storefile.txt' # sim_file=open(store_path,'w') # for i in similarity: # sim_file.write(str(i)+'\n') # sim_file.close()import jieba path='/home/appleyuchi/coai_fudan/train/C3-Art/C3-Art0443.txt' f=open(path) contents=f.read()seg_list = jieba.cut(contents,cut_all = True) list1=list(seg_list) print("-----------第1種解決辦法----------------------------------------") print ' '.join(list1) print type(list1) print("-----------第2種解決辦法----------------------------------------")str_symptom = str(list1).replace('u\'','\'') print str_symptom.decode('unicode_escape')
數據集是復旦新聞數據集,其他的數據集也是可以的。

總結

以上是生活随笔為你收集整理的python2.x环境下unicode乱码转中文显示的2种解决方案总结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。