日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题

發布時間:2025/3/19 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

嗯,多謝你解答。試驗了,出現了另外一種亂碼,自己又再次琢磨了http://club.excelhome.net/thread-893760-1-1.html這個帖子的第一帖,問題解決了,原因是'因為XMLHTTP默認是UTF-8(原網頁正是 此編碼格式),不能識別gb2312,會發現數據亂碼,所以不能采用.responsetext對象來得到字符串。

Sub te4t()

Dim strRespText$, tt$, i&, DW$

On Error Resume Next

For i = 3 To 4

a = Cells(i, 1).Value

With CreateObject("Microsoft.XMLHTTP")

.Open "GET", a, False? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '要抓取的鏈接,"GET"盡量用大寫,以免某些系統不兼容

.Send

tt = .responsetext

With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")? ? 'DataObject對象,數據放入剪貼板,記事本觀察數據

.SetText tt? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '因為XMLHTTP默認是UTF-8,不能識別gb2312,會發現數據亂碼

.PutInClipboard? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?'所以不能采用.responsetext對象來得到字符串

End With

Set BytesToBstr = Server.CreateObject("Adodb.Stream")

tt = BytesToBstr(.responsebody, "GB2312")? ?? ?? ?? ?? ?? ?? ?? ???'因此要用Adodb.Stream對象

'tt = StrConv(.ResponseBody, vbUnicode, &H804)? ?? ?? ?? ?? ?? ?? ?'或者StrConv函數,從.ResponseBody得到字符串

'tt = StrConv(.ResponseBody, vbUnicode)? ?? ?? ?? ?? ?? ?? ?? ?? ? '因網頁為GB2312,簡體版的操作系統也可以不寫第三個參數

With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")? ? '得到的字符串放入剪貼板,記事本觀察數據

.SetText tt? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '數據正常顯示,可以提取了

.PutInClipboard

End With

Cells(i, 2).Value = WorksheetFunction.Substitute(Split(Split(tt, "

")(1), "")(0), Chr(10), " ")

Cells(i, 3).Value = WorksheetFunction.Substitute(Split(Split(tt, "16.spid"" target=""_blank"">")(1), "

For j = 1 To 100

Cells(i, 3 + j).Value = WorksheetFunction.Substitute(Split(Split(tt, "")(j), "

If Cells(i, 3 + j) = "" Then GoTo xiayige

Next

xiayige:

End With

Next

MsgBox "【完】"

End Sub

換成這個代碼問題就解決了。

總結

以上是生活随笔為你收集整理的抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。