日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python3.5.3下载安装教程_在Python3.5下安装和测试

發布時間:2025/4/17 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3.5.3下载安装教程_在Python3.5下安装和测试 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一. 安裝Twisted

1. 同安裝Lxml庫

(參考《為編寫網絡爬蟲程序安裝Python3.5》3.1節)一樣,通過下載對應版本的.whl文件先安裝twisted庫,下載地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

2. 安裝twisted

打開命令提示符窗口,輸入命令:

pip install E:\demo\Twisted-16.4.1-cp35-cp35m-win_amd64.whl(下載好的twisted模塊的whl文件路徑)

二. 安裝scrapy

twisted庫安裝成功后,安裝scrapy就簡單了,在命令提示符窗口直接輸入命令: pip install scrapy 回車

安裝關聯模塊pypiwin32,在命令提示符窗口直接輸入命令: pip install pypiwin32 回車

三. Scrapy測試,敲一個基于Scrapy框架的爬蟲程序

新建一個Scrapy爬蟲項目fourth(因為這是繼Python3.5安裝的第四篇教程,有興趣的話請從頭看起):在任意目錄按住shift+右鍵->選擇在此處打開命令提示符窗口(這里默認為E:\demo),然后輸入命令:

E:\demo>scrapy startproject fourth

該命令將會創建包含下列內容的fourth目錄:

fourth/

scrapy.cfg

fourth/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...

修改項目配置文件settings.py,有些網站會在根目錄下放置一個名字為 robots.txt的文件,里面聲明了此網站希望爬蟲遵守的規范,Scrapy默認遵守這個文件制定的規范,即ROBOTSTXT_OBEY默認值為 True。在這里需要修改ROBOTSTXT_OBEY的值,找到項目目錄(這里為:E:\demo\fourth\fourth)下文件 settings.py,更改ROBOTSTXT_OBEY的值為False

引入Gooseeker最新規則提取器模塊gooseeker.py(下載地址: gooseeker/core at master · FullerHua/gooseeker · GitHub),拷貝到項目目錄下,這里為E:\demo\fourth\gooseeker.py

創建爬蟲模塊,進入項目目錄E:\demo\fourth下,在此處打開命提示符窗口輸入命令:

E:\demo\fourth>scrapy genspider anjuke 'anjuke.com'

該命令將會在項目目錄E:\demo\fourth\fourth\spiders下創建模塊文件anjuke.py,以記事本打開然后添加代碼,主要代碼:

# -*- coding: utf-8 -*-

# Scrapy spider 模塊

# 采集安居客房源信息

# 采集結果保存在anjuke-result.xml中

import os

import time

import scrapy

from gooseeker import GsExtractor

class AnjukeSpider(scrapy.Spider):

name = "anjuke"

allowed_domains = ["'anjuke.com'"]

start_urls = (

'http://bj.zu.anjuke.com/fangyuan/p1',

)

def parse(self, response):

print("----------------------------------------------------------------------------")

# 引用提取器

bbsExtra = GsExtractor()

# 設置xslt抓取規則

bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e", "安居客_房源")

# 調用extract方法提取所需內容

result = bbsExtra.extractHTML(response.body)

# 打印采集結果

print(str(result).encode('gbk','ignore').decode('gbk'))

# 保存采集結果

file_path = os.getcwd() + "/anjuke-result.xml"

open(file_path,"wb").write(result)

# 打印結果存放路徑

print("采集結果文件:" + file_path)

啟動爬蟲,進入項目目錄E:\demo\fourth下,在此處打開命提示符窗口輸入命令:

E:\demo\fourth>scrapy crawl anjuke

注:網站若發現抓取時報重定向錯誤了,嘗試修改user-agent后,再啟動爬蟲爬取數據。操作步驟如下:

1、在爬蟲項目目錄(這里為E:\demo\fourth\fourth)下創建模塊文件middlewares.py,以記事本打開后,添加如下代碼:

#-*-coding:utf-8-*-

# 隨機更換user agent

import random

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class RotateUserAgentMiddleware(UserAgentMiddleware):

def __init__(self, user_agent=''):

self.user_agent = user_agent

def process_request(self, request, spider):

ua = random.choice(self.user_agent_list)

if ua:

request.headers.setdefault('User-Agent', ua)

user_agent_list = [\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

2、修改項目配置文件settings.py,加上如下代碼:

DOWNLOADER_MIDDLEWARES = {

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

'fourth.middlewares.RotateUserAgentMiddleware':400,

}

查看保存結果文件,進入Scrapy爬蟲項目目錄,這里為E:\demo\fourth,找到名稱為anjuke-result.xml的文件夾然后打開

四. 總結

安裝pypiwin32時碰到了一次超時斷開,再次輸入命令重新安裝才成功,若重復安裝都失敗 可以嘗試連接vpn再安裝。下一篇《Python爬蟲實戰:單頁采集》將講解如何爬取微博數據(單頁),同時整合Python爬蟲程序以 Gooseeker規則提取器為接口制作一個通用的采集器,歡迎有興趣的小伙伴一起交流進步。

End

作者:華天清

來源:知乎

本文均已和作者授權,如轉載請與作者聯系。

總結

以上是生活随笔為你收集整理的python3.5.3下载安装教程_在Python3.5下安装和测试的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。