python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言
本文利用python的scrapy框架對虎牙web端的主播、主播訂閱數、主播當前觀看人數等基本數據進行抓取,并將抓取到的數據以csv格數輸出,以及存儲到mongodb中
思路
觀察虎牙網站后確認所有頻道url都在www.huya.com/g中的,而主播房間數據則是ajax異步數據,獲取數據的鏈接為
http://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId={頻道id}&tagAll=0&page={頁碼}
該鏈接通過控制gameId和page來返回某頻道下某頁的數據,根據以上觀察爬行設計思路如下
第一步:訪問www.huya.com/g頁面,在li(class類型為game-list-item)中獲取當前所有頻道的鏈接、標題、頻道id
第二步:根據第一步獲取到的頻道的鏈接進入頻道頁面,在頻道頁面獲取當前頻道頁數,再根據該頻道id,頁數構造異步數據請求鏈接
第三步:從第二步中獲取頻道返回的異步數據內容,將返回的json數據類型轉化為字典,再獲取要抓取的目標內容。
第四步:向第三步中獲取到的主播房間url發出請求,進入房間頁面后抓取主播訂閱數
第五步:將數據輸出為csv格式以及存在mongodb數據庫中。
頻道分類頁面
ajax異步請求對應的鏈接
代碼
items
在items中定義要抓取的字段內容,items代碼如下
class HuyaspiderItem(scrapy.Item):
channel = scrapy.Field() #主播所在頻道
anchor_category = scrapy.Field() #主播類型
anchor_name = scrapy.Field() #主播名稱
anchor_url = scrapy.Field() #直播房間鏈接
anchor_tag = scrapy.Field() #主播標簽
anchor_roomname = scrapy.Field() #主播房間名稱
position = scrapy.Field() #當前頻道的主播排名
watch_num = scrapy.Field() #觀看人數
fan_num = scrapy.Field() #訂閱數量
crawl_time = scrapy.Field() #爬取時間
pipelines
在pipelines中設置輸出為csv表以及將數據保存到mongodb中,pipelines代碼設置如下
# -*- coding: utf-8 -*-
import json,codecs
import pymongo
class HuyaspiderPipeline(object):
def __init__(self):
self.file = codecs.open('huyaanchor.csv','wb+',encoding='utf-8') #創建以utf-8編碼的csv文件
client = pymongo.MongoClient('localhost',27017) #創建mongodb連接
db = client['huya'] #創建mongodb數據庫huya
self.collection =db['huyaanchor'] #創建數據庫huya中collection
def process_item(self, item, spider):
item = dict(item) #將抓到的item轉為dict格式
line = json.dumps(item)+'\n' #定義line字段將抓到的item轉為jump格式,加上空格換行
self.file.write(line.decode('unicode_escape')) #將line寫進csv中輸出
self.collection.insert(item) #將item寫進mongodb中
middlewares
在middlewares中以繼承UserAgentMiddleware父類方式創建創建HuyaUserAgentMiddlewares類,該類用于scrapy每次執行請求時使用指定的useragent,middlewares代碼如下
from scrapy import signals
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
import random
class HuyaUserAgentMiddleware(UserAgentMiddleware):
def __init__ (self,user_agent=""):
'''定義隨機user_agent列表'''
self.user_agent =user_agent
self.ua_list = ["Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",]
self.count=0
def process_request(self,request,spider):
ua ='Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:53.0) Gecko/20100101 Firefox/53.0'
request.headers.setdefault('Use-Agent',ua) #設定reuqest使用的Use-Agent為ua
request.headers.setdefault('Host','www.huya.com') #設定reuqest使用的Host為www.huya.com
request.headers.setdefault('Referer','http://www.huya.com/') #設定reuqest使用的Referer為http://www.huya.com/
settings
settings配置如下,在“DOWNLOADER_MIDDLEWARES”以及“ITEM_PIPELINES”設置上述items和middlewares中的配置。
DOWNLOADER_MIDDLEWARES = {
'huyaspider.middlewares.HuyaUserAgentMiddleware': 400, #啟動middlewares中設定好的usragent
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None, #禁用默認的usragent
}
ITEM_PIPELINES = {
'huyaspider.pipelines.HuyaspiderPipeline': 300, #設置pipelines
}
spider
在spider中定義了parse、channel_get、channel_parse、room_parse四個函數,其作用說明如下
parse :獲取虎牙下所有頻道的url 、頻道id 、頻道名稱
channel_get : def parse的回調函數,根據頻道id構造主播數據連接并執行請求
channel_parse :channel_get 的回調函數,根據返回的json數據抓取相應內容,并抓出主播的房間鏈接,對房間鏈接執行請求
room_parse :channel_parse的回調函數,抓取主播的訂閱數量
代碼如下
# -*- coding: utf-8 -*-
import scrapy,re,json,time
from scrapy.http import Request
from huyaspider.items import HuyaspiderItem
class HuyaSpider(scrapy.Spider):
name = "huya"
allowed_domains = ["www.huya.com"] #設置爬蟲允許抓取的
start_urls = ['http://www.huya.com/g'] #設置第一個爬取的url
allow_pagenum = 5 #設置爬取頻道的數量
total_pagenum = 0 #計算檔前已爬取頻道的數量
url_dict={} #設置存放url的dict
def parse(self,response):
parse_content= response.xpath('/html/body/div[3]/div/div/div[2]/ul/li') #抓取當前頻道
for i in parse_content:
channel_title = i.xpath('a/p/text()').extract() #抓取頻道名稱
channel_url = i.xpath('a/@href').extract_first() #抓取當前頻道url
channel_id = i.xpath('a/@report').re(r'game_id\D*(.*)\D\}') #抓取當前頻道對應的id,用正則去掉不需要部分
channel_data = {"url":channel_url,"channel_id":channel_id[0]} #將頻道url和頻道id組成一一對應的dict
self.url_dict[channel_title[0]]=channel_data #將頻道名稱和channel_data添加在url_dict中
if self.total_pagenum <= self.allow_pagenum: #用于控制爬出抓取數量,當total_pagenum小于allow_pagenum 繼續爬
self.total_pagenum += 1
yield Request(url=channel_url,meta={'channel_data':channel_data,'channel':channel_title},callback=self.channel_get) #使用request,meta攜帶數據為頻道url,頻道id,回調函數為channel_get
def channel_get(self, response):
page_num = int( response.xpath('/html/body/div[3]/div/div/div["js-list-page"]/div[1]/@data-pages').extract_first( ) ) #抓取當前頻道一共有多少頁,并轉為int格式
channel_id = response.meta['channel_data']['channel_id'] #將傳入meta的dict(channel_data)中的channel_id值賦給channel_id,該id用于構造url從而實現翻頁
channel = response.meta['channel'] #將傳入的meta的dict中的channel_id值賦給channel_id
for i in range(1,page_num+1): #根據page_num數量構造"下一頁"并繼續抓取
url ='http://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId={gameid}&tagAll=0&page={page}'.format(gameid=channel_id,page=i) #獲取下一頁的json數據
yield Request(url=url,meta={'page':i,'channel':channel},callback=self.channel_parse) #meta攜帶數據為頻道當前頁碼,頻道名稱,回調函數為channel_parse
def channel_parse(self, response):
print 'channel_parse start'
count =0 #用于當前房間的位置計算位置
response_json = json.loads(response.text) #利用json.loads將json數據轉為字典
channel =response.meta['channel']
for i in response_json['data']['datas']:
count +=1
items=HuyaspiderItem() #實例化item.HuyaspiderItem
items['channel'] = channel #獲取頻道名稱
items['anchor_category'] = i['gameFullName'].replace('/n','') #獲取主播類型,并刪內容中的換行符
items['watch_num'] = i['totalCount'] #獲取觀看數量
items['anchor_roomname'] = i['roomName'] #獲取房間名稱
items['anchor_url'] = 'http://www.huya.com/'+i['privateHost'] #獲房間url
items['anchor_name'] = i['nick'] #獲主播名稱
items['anchor_tag'] = i['recommendTagName'] #獲主播推薦標簽
items['position'] = str(response.meta['page'])+"-"+str(count) #獲取所在頻道的位置
yield Request(url=items['anchor_url'],meta={'items':items},callback=self.room_parse) #進入主播房間url獲取主播訂閱數量,meta攜帶數據為剛抓取的items,回調函數為room_parse
def room_parse(self,response):
print "room_parse start"
items =response.meta['items']
try:
items['fan_num'] =response.xpath('/html/body/div[2]/div/div/div[1]/div[1]/div[2]/div/div[1]/div[2]/text()').extract() #獲取主播訂閱數量
except Exception as e:
items['fan_num'] ='none' #如果主播訂閱數量為空值則數據則為none
items['crawl_time'] = time.strftime('%Y-%m-%d %X',time.localtime()) #記錄爬取時間
yield items #輸出items
總結
以上是生活随笔為你收集整理的python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鸿蒙与安卓“切割”加速 生态建设是成功关
- 下一篇: python3 beautifulsou