路飞学城-python爬虫密训-第三章
(一)學習心得
?其實在沒有正式學習python編程語言中,就知道模塊是python最重要部分之一。雖然在前面HTTP協議跟IO多路復用都沒有接觸學的也是一知半解,scrapy模塊比resquests模塊功能更加強大。當然理解難度也是大了對于6月份中旬剛開始學習python基礎有點難啃。11號福建福州海經歷了7月史上最強一次臺風,很遺憾我發現自己沒有辦法完成最后2次作業,突然間覺得之前自己對爬蟲認知太少,計算機知識儲量太少,希望在這次培訓讓自己進一步認識到python與爬蟲,99元買了佩奇視頻我也覺得很值得。希望自己下次報課是自己是做好準備了,真正跟上線上課堂。別人做到了,我卻沒有做到,說明我需要進步學習空間還很大。
(二)知識點總結
1. 高性能爬蟲相關
1)http協議本質:
方案:
多進程 > 多線程 > 單線程
本質:
sk = socket()
# 阻塞
sk.connect(('www.cnblogs.com',80))
sk.sendall(b"GET /wupeiqi http1.1\r\n.....\r\n\r\n")
sk.sendall(b"POST /wupeiqi http1.1\r\n.....\r\n\r\nuser=alex&pwd=123")
# 阻塞
data = sk.recv(8096)
sk.close()
IO多路復用:監聽多個socket是否發生變化
問題:
- 非阻塞
- 監聽socket變化
2)什么是異步非阻塞?
- 非阻塞
- 不等待(報錯,捕捉異常)
- 代碼:
sk = socket.socket()
sk.setblocking(False)
- 異步:
- 回調,當達到某個指定的狀態之后,自動調用特定函數。
自定義異步非阻塞模塊
基于socket設置setblocking和IO多路復用來實現。
爬蟲發送Http請求本質創建socket對象;
IO多路復用"循環"監聽socket是否發生變化,一旦發生變化, 我們可以自定義操作(觸發某個函數的執行)
- 基于事件循環
- 基于協程
本質:socket+IO多路復用
使用:
情況一:
import asyncio
import requests
@asyncio.coroutine
def fetch_async(func, *args):
loop = asyncio.get_event_loop()
future = loop.run_in_executor(None, func, *args)
response = yield from future
print(response.url, len(response.content))
tasks = [
fetch_async(requests.get, 'http://www.cnblogs.com/wupeiqi/'),
fetch_async(requests.get, 'http://dig.chouti.com/pic/show?nid=4073644713430508&lid=10273091')
]
loop = asyncio.get_event_loop()
results = loop.run_until_complete(asyncio.gather(*tasks))
loop.close()
情況二:
import gevent
from gevent import monkey
monkey.patch_all()
import requests
def fetch_async(method, url, req_kwargs):
print(method, url, req_kwargs)
response = requests.request(method=method, url=url, **req_kwargs)
print(response.url, len(response.content))
# ##### 發送請求 #####
gevent.joinall([
gevent.spawn(fetch_async, method='get', url='https://www.cnblogs.com/', req_kwargs={}),
gevent.spawn(fetch_async, method='get', url='https://www.baidu.com/', req_kwargs={}),
gevent.spawn(fetch_async, method='get', url='https://www.sogo.com/', req_kwargs={}),
])
# ##### 發送請求(協程池控制最大協程數量) #####
# from gevent.pool import Pool
# pool = Pool(None)
# gevent.joinall([
# pool.spawn(fetch_async, method='get', url='https://www.python.org/', req_kwargs={}),
# pool.spawn(fetch_async, method='get', url='https://www.yahoo.com/', req_kwargs={}),
# pool.spawn(fetch_async, method='get', url='https://www.github.com/', req_kwargs={}),
# ])
情況三:
from twisted.web.client import getPage, defer
from twisted.internet import reactor
def all_done(arg):
reactor.stop()
def callback(contents):
print(contents)
d_list = []
url_list = ['http://www.bing.com', 'http://www.baidu.com', ]
for url in url_list:
d = getPage(bytes(url, encoding='utf8'))
d.addCallback(callback)
d_list.append(d)
# 用于檢查是否頁面已經全部下載完成,如果已下載完成那么,就停止循環。
dlist = defer.DeferredList(d_list)
dlist.addBoth(all_done) #
reactor.run()
3)什么是協程?
協程是 “微線程” ,讓一個線程 先執行某幾行代碼 再調到某處 執行某幾行代碼。
?是“微線程”,不存在;是由程序員人為創造出來并控制程序:先執行某段代碼、再跳到某處執行某段代碼。
- 如果遇到非IO請求來回切換:性能更低。
- 如果遇到IO(耗時)請求來回切換:性能高、實現并發(本質上利用IO等待的過程,再去干一些其他的事)
如果 協程+遇到IO就切換 => 可以實現并發
通過yield實現一個協程:
def func1():
print('adsfasdf')
print('adsfasdf')
print('adsfasdf')
yield 1
print('adsfasdf')
print('adsfasdf')
print('adsfasdf')
yield 2
yield 3
yield 4
def func2():
print('adsfasdf')
print('adsfasdf')
print('adsfasdf')
yield 11
yield 12
yield 19
g1=func1()
g2=func2()
g1.send(None)
g1.send(None)
g2.send(None)
通過greenlet模塊:
from greenlet import greenlet
def test1():
print 12
gr2.switch()
print 34
gr2.switch()
def test2():
print 56
gr1.switch()
print 78
gr1 = greenlet(test1)
gr2 = greenlet(test2)
gr1.switch()
2.Scrapy模塊
1)安裝scrapy
scrapy是個什么鬼?
- 幫我們提供一個可擴展功能齊全的爬蟲框架。
安裝:
Linux/mac
- pip3 install scrapy
Windows:
- 安裝twsited
a. pip3 install wheel
b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
c. 進入下載目錄,執行 pip3 install Twisted-xxxxx.whl
- 安裝scrapy
d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
- 安裝pywin32
e. pip3 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
2)快速使用:
Django:
django-admin startproject mysite
cd mysite
python manage.py startapp app01
# 寫代碼
python manage.py runserver
Scrapy:
創建project:
scrapy startproject xianglong
cd xianglong
scrapy genspider chouti chouti.com
#寫代碼
scrapy crawl chouti --nolog
3)scrapy相關:
?spider,編寫爬蟲程序,去解析并處理請求。
def parse():
- HtmlXPathSelector
- yield item
- yield request
4)item/pipelines
配置:
ITEM_PIPELINES = {
'xianglong.pipelines.XianglongPipeline': 300,
}
使用:
class XianglongPipeline(object):
def process_item(self, item, spider):
self.f.write(item['href']+'\n')
self.f.flush()
return item
def open_spider(self, spider):
"""
爬蟲開始執行時,調用
:param spider:
:return:
"""
self.f = open('url.log','w')
def close_spider(self, spider):
"""
爬蟲關閉時,被調用
:param spider:
:return:
"""
self.f.close()
5)去重
配置
DUPEFILTER_CLASS=" xianglong.dupe.MyDupe.MyDupeFilter"
-寫類
class ?MyDupeFilter(BaseDupeFilter):
def_init_(self):
pass
@classmethod
def from_settings(cls,settings):
pass
def request_seen(self,request):
pass
def open(self):#c&n return deferred
pass
def close(self,reason):#c&n??return ?& deferred
pass
6)下載中間件
配置
DOWNLOADER_MIDDLEWARES={" xianglong.middlawaras.UserAgentDownloaderMiddlaware":543}
類
class UserAgentDownloaderMiddlaware(object):
@classmethod
def from_crawler(cls,crawler):
pass
def process_request(self,request,spider):
pass
def process_response(self,request,response,spider):
pass
def process_exception(sef,request,exception,spider):
pass
轉載于:https://www.cnblogs.com/christyyao/p/9285995.html
總結
以上是生活随笔為你收集整理的路飞学城-python爬虫密训-第三章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DOM 操作
- 下一篇: websocket python爬虫_p