日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫之路自学教程_python 爬虫学习之路

發布時間:2024/9/30 python 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫之路自学教程_python 爬虫学习之路 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2016-6-18

--今天實現了第一個用urllib2實現的爬蟲程序。

--過程中發現

req = urllib2.Request(url,headers = headers)

總是報錯: 主要原因在于 url 地址錯誤。

例如:http://www.neihan8.com/wenzi/index_1.html

這個網址打開的是404網頁錯誤。

但是 http://www.neihan8.com/wenzi/index_2.html 這個網頁卻可以了。

源代碼如下:

#-*- coding:utf-8 -*-

import urllib2

class Spider:

'''

內涵段子吧。。。

'''

def load_page(self,page):

'''

發送內涵段子url

'''

url = 'http://www.neihan8.com/wenzi/index_'+ str(page) +'.html'

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}

req = urllib2.Request(url,headers = headers)

response = urllib2.urlopen(req)

html = response.read()

return html

#main

'''

'''

if __name__ == '__main__':

mySpider = Spider()

the_page = mySpider.load_page(2)

print the_page

綜上,我們可以在代碼中加一個判斷 url 是否打開正常的代碼,這個需要學習。

-----------------------------------------------------------華麗麗的分割線-------------------------------------------------------------------------------------------------

安裝Scrapy

--安裝scrapy 都要快被安裝死了

首先會發現提示 一下問題:

1.版本問題,就是說 Scrapy 所依賴的模塊版本太低。'>=1.00' 表明你要使用大于1.0的版本

2.

說明 你有一個包 attrs 沒有安裝。

那就使用 pip install attrs 安裝即可

安裝完之后終于正常了。。。。

Python教程:pywin32下載安裝

下載鏈接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download

-------------------------開啟爬蟲之路----------------------------------------------

首先先說明當中可能遇到的問題:

步驟:在執行插入語句時,會提示上面的error。

原因:是因為數據庫中定義的字段長度比較小,在插入或者更新的時候,用一個比這個字段長度大的值去操作,就會引起這個錯誤。

2.

python向數據庫插入中文亂碼問題

第一步:數據庫那邊總得把字段類型設置為utf8之類類的吧。

第二步:在連接數據庫的時候,加個參數,說明數據庫那邊的字段類型一致,charset='utf8'。

大概就是這樣:

conn =MySQLdb.connect(host="127.0.0.1",user="nimei",passwd="nimei",db="nimei",charset="utf8") --sqlserver同理

總結

以上是生活随笔為你收集整理的python爬虫之路自学教程_python 爬虫学习之路的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。