抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题
嗯,多謝你解答。試驗了,出現了另外一種亂碼,自己又再次琢磨了http://club.excelhome.net/thread-893760-1-1.html這個帖子的第一帖,問題解決了,原因是'因為XMLHTTP默認是UTF-8(原網頁正是 此編碼格式),不能識別gb2312,會發現數據亂碼,所以不能采用.responsetext對象來得到字符串。
Sub te4t()
Dim strRespText$, tt$, i&, DW$
On Error Resume Next
For i = 3 To 4
a = Cells(i, 1).Value
With CreateObject("Microsoft.XMLHTTP")
.Open "GET", a, False? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '要抓取的鏈接,"GET"盡量用大寫,以免某些系統不兼容
.Send
tt = .responsetext
With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")? ? 'DataObject對象,數據放入剪貼板,記事本觀察數據
.SetText tt? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '因為XMLHTTP默認是UTF-8,不能識別gb2312,會發現數據亂碼
.PutInClipboard? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?'所以不能采用.responsetext對象來得到字符串
End With
Set BytesToBstr = Server.CreateObject("Adodb.Stream")
tt = BytesToBstr(.responsebody, "GB2312")? ?? ?? ?? ?? ?? ?? ?? ???'因此要用Adodb.Stream對象
'tt = StrConv(.ResponseBody, vbUnicode, &H804)? ?? ?? ?? ?? ?? ?? ?'或者StrConv函數,從.ResponseBody得到字符串
'tt = StrConv(.ResponseBody, vbUnicode)? ?? ?? ?? ?? ?? ?? ?? ?? ? '因網頁為GB2312,簡體版的操作系統也可以不寫第三個參數
With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")? ? '得到的字符串放入剪貼板,記事本觀察數據
.SetText tt? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? '數據正常顯示,可以提取了
.PutInClipboard
End With
Cells(i, 2).Value = WorksheetFunction.Substitute(Split(Split(tt, "
")(1), "")(0), Chr(10), " ")Cells(i, 3).Value = WorksheetFunction.Substitute(Split(Split(tt, "16.spid"" target=""_blank"">")(1), "
For j = 1 To 100
Cells(i, 3 + j).Value = WorksheetFunction.Substitute(Split(Split(tt, "")(j), "
If Cells(i, 3 + j) = "" Then GoTo xiayige
Next
xiayige:
End With
Next
MsgBox "【完】"
End Sub
換成這個代碼問題就解決了。
總結
以上是生活随笔為你收集整理的抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 将html转换为pptx,javascr
- 下一篇: html主题居中用什么命令,html –