當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python多线程下载器_用 python 实现一个多线程网页下载器

發(fā)布時(shí)間：2023/12/10 python 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 python多线程下载器_用 python 实现一个多线程网页下载器小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)之

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib, httplib

import thread

import time

from Queue import Queue, Empty, Full

HEADERS = {"Content-type": "application/x-www-form-urlencoded",

'Accept-Language':'zh-cn',

'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.0)',

"Accept": "text/plain"}

UNEXPECTED_ERROR = -1

POST = 'POST'

GET = 'GET'

def base_log(msg):

print msg

def base_fail_op(task, status, log):

log('fail op. task = %s, status = %d'%(str(task), status))

def get_remote_data(tasks, results, fail_op = base_fail_op, log = base_log):

while True:

task = tasks.get()

try:

tid = task['id']

hpt = task['conn_args'] # hpt <= host:port, timeout

except KeyError, e:

log(str(e))

continue

log('thread_%s doing task %d'%(thread.get_ident(), tid))

#log('hpt = ' + str(hpt))

conn = httplib.HTTPConnection(**hpt)

try:

params = task['params']

except KeyError, e:

params = {}

params = urllib.urlencode(params)

#log('params = ' + params)

try:

method = task['method']

except KeyError:

method = 'GET'

#log('method = ' + method)

try:

url = task['url']

except KeyError:

url = '/'

#log('url = ' + url)

headers = HEADERS

try:

tmp = task['headers']

except KeyError, e:

tmp = {}

headers.update(tmp)

#log('headers = ' + str(headers))

headers['Content-Length'] = len(params)

try:

if method == POST:

conn.request(method, url, params, headers)

else:

conn.request(method, url + params)

response = conn.getresponse()

except Exception, e:

log('request failed. method = %s, url = %s, params = %s headers = %s'%(

method, url, params, headers))

log(str(e))

fail_op(task, UNEXPECTED_ERROR, log)

continue

if response.status != httplib.OK:

fail_op(task, response.status, log)

continue

data = response.read()

results.put((tid, data), True)

class HttpPool(object):

def __init__(self, threads_count, fail_op, log):

self._tasks = Queue()

self._results = Queue()

for i in xrange(threads_count):

thread.start_new_thread(get_remote_data,(self._tasks, self._results, fail_op, log))

def add_task(self, tid, host, url, params, headers = {}, method = 'GET', timeout = None):

task = {

'id' : tid,

'conn_args' : {'host' : host} if timeout is None else {'host' : host, 'timeout' : timeout},

'headers' : headers,

'url' : url,

'params' : params,

'method' : method,

}

try:

self._tasks.put_nowait(task)

except Full:

return False

return True

def get_results(self):

results = []

while True:

try:

res = self._results.get_nowait()

except Empty:

break

results.append(res)

return results

def test_google(task_count, threads_count):

hp = HttpPool(threads_count, base_fail_op, base_log)

for i in xrange(task_count):

if hp.add_task(i,

'www.google.cn',

'/search?',

{'q' : 'lai'},

# method = 'POST'

print 'add task successed.'

while True:

results = hp.get_results()

if not results:

time.sleep(1.0 * random.random())

for i in results:

print i[0], len(i[1])

# print unicode(i[1], 'gb18030')

if __name__ == '__main__':

import sys, random

task_count, threads_count = int(sys.argv[1]), int(sys.argv[2])

test_google(task_count, threads_count)

有興趣想嘗試運(yùn)行的朋友，可以把它保存為 xxxx.py，然后執(zhí)行 python xxxx.py 10 4，其中 10 表示向 google.cn 請(qǐng)求 10 次查詢，4 表示由 4 條線程來(lái)執(zhí)行這些任務(wù)。

總結(jié)

以上是生活随笔為你收集整理的python多线程下载器_用 python 实现一个多线程网页下载器的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：如何在intellj Idea中给新建的
下一篇： wxpython入门_wxpython笔

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python多线程下载器_用 python 实现一个多线程网页下载器

總結(jié)