日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python做出来的东西_【python小白】 做了一个爬虫,但是爬出来的东西无法存储...

發(fā)布時(shí)間:2025/3/21 python 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python做出来的东西_【python小白】 做了一个爬虫,但是爬出来的东西无法存储... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

問題如下:

# -*- coding:utf-8 -*-

from urllib.request import urlopen

import bs4

import webbrowser

import requests

html_list = [] #存放要爬的所有網(wǎng)頁

html_list_txt = [] #存放要爬的所有網(wǎng)頁的源代碼

movie_list = [] #存放所有電影

movie_total = {} #存放所有電影資料的字典

html = 'https://movie.douban.com/top250'

html_list.append(html)

#html2 = requests.get('https://movie.douban.com/top250')

#webbrowser.open(html)

#webbrowser.open(html)

html_txt = (urlopen(html)).read()

#html_txt = (requests.get(html)).text

bsObj = bs4.BeautifulSoup(html_txt, 'html.parser')

print('---1---')

html_div = bsObj.find('div',{'class':'paginator'})

print('---2---')

html_a = html_div.findAll('a')

print('---3---')

for html_a_temp in html_a:

# print(type(html_a_temp))

#i = 2

#while i <= 9:

#print(html_a_temp.get_text())

#if html_a_temp.get_text != '后頁>':

html_href = html_a_temp.attrs['href']

html_href = 'https://movie.douban.com/top250' + html_href

html_list.append(html_href)

#i += 1

print('---4---')

html_list = list(set(html_list))

print(len(html_list))

#print(html_set)

#print(len(html_set))

#print(set(html_list))

#print(type('后頁'))

#上面的代碼為找到所有的鏈接

for html_list_temp in html_list:

'''把所有要爬的鏈接全部轉(zhuǎn)換成源代碼并存儲(chǔ)'''

html_read = bs4.BeautifulSoup(urlopen(html_list_temp).read(), 'html.parser')

html_list_txt.append(html_read)

for html_page in html_list_txt:

name_div_list = html_page.findAll('div',{'class':'info'})

for name_div_temp in name_div_list:

name_div_inside = name_div_temp.findAll('div')

movie_name = name_div_inside[0].a.span.get_text() #找到電影名字

name_div_star = name_div_temp.find('div',{'class':'star'})

name_div_star_span = name_div_star.findAll('span')

movie_score = name_div_star_span[1].get_text() #找到電影評(píng)分

movie_number = name_div_star_span[3].get_text() #找到電影評(píng)價(jià)人數(shù)

# ------分隔符-----

#name_span_inq = name_div_temp.findAll('p')[1].span.get_text()

#movie_introduction = name_span_inq

#name_span_inq = name_div_temp.find('span',{'class':'inq'})

print('----ttt----')

#movie_introduction = name_span_inq.get_text() #找到電影簡評(píng)

movie_total['name'] = movie_name

movie_total['score'] = movie_score

movie_total['number'] = movie_number

#movie_total['introduction'] = movie_introduction

movie_list.append(movie_total)

print(movie_list)

'''

name_div_inside_span_list = name_div_inside[1].div.findAll('span')

for name_div_inside_span_temp in name_div_inside_span_list:

movie_score = name_div_inside[1].div.span[1].get_text() #找到電影評(píng)分

movie_number = name_div_inside[1].div.span[3].get_text() #找到評(píng)價(jià)人數(shù)

'''

#movie_total[name] = movie_name

'''

name_div_list = html_page.findAll('div',{'class':'hd'})

for name_div_temp in name_div_list:

movie_name = name_div_temp.a.span.get_text()

movie_name_list.append(movie_name)

'''

#print(movie_name_list)

運(yùn)行結(jié)果如下:

這個(gè)爬蟲我還在測試中,本身還存在一些其他問題,有待解決。

但是我現(xiàn)在想問的是,為什么我在爬豆瓣TOP250電影的時(shí)候,每次抓下來一個(gè)電影,存到列表里,最終打印出來的全部都是同一個(gè)電影呢?

我怎么樣改動(dòng)代碼,才能讓這些電影變成一個(gè)一個(gè)不同的電影呢?

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的python做出来的东西_【python小白】 做了一个爬虫,但是爬出来的东西无法存储...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。