當前位置：首頁 >

爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库

發布時間：2024/2/28 41 豆豆

生活随笔收集整理的這篇文章主要介紹了爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

項目源碼

import requests # 發起請求的庫 from fake_useragent import UserAgent # 構造user-Agent的庫 import mysql.connector # Python和MySQL連接的庫 from typing import NoReturn, Tuple # 類型標注的庫 from lxml import etree # 使用lxml提取html的庫 import re # Python中的正則表達式庫 import csv # 寫入csv文件的庫 import time # 程序休眠庫class bouban_Top250:def __init__(self):"""初始化"""self.conn = mysql.connector.connect( # 構造和mysql的連接host='localhost',user='root',passwd='123456',port=3307,charset='utf8',database='reptile')self.my_cursor = self.conn.cursor() # 創建油標self.start_id = 1 # 電影id編號self.all_movies_list = [] # 用來存儲所有電影信息def send_request(self, url: str) -> str:"""發送get請求，將HTML頁面源碼返回url:str類型，要請求的鏈接return：str類型，請求的鏈接頁面的html源碼"""# 使用fake_useragent.UserAgent()構造請求頭headers = {'user-Agent': UserAgent().Chrome,}# 發起請求response = requests.get(url=url, headers=headers)# 根據狀態碼來返回HTML頁面源碼if response.status_code == 200:return response.textelse:print('status_code error')return '-1'def parse_html(self, html: str) -> Tuple[Tuple]:"""解析html源碼html:str類型，html頁面源碼return：Tuple[Tuple]，元組中的每一個元素也是一個元組，每一個元素對應一個電影的所有信息"""# 初始化lxmle = etree.HTML(html, etree.HTMLParser())# 獲取li標簽列表，每一個li標簽中包含一個電影的所有信息li_list = e.xpath('//ol[@class="grid_view"]/li')movies_tuple = []# 遍歷每一個li標簽，對每一個li標簽進行解析for li in li_list:try:name = ''.join(li.xpath('./div/div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()'))href = ''.join(li.xpath('./div/div[@class="info"]/div[@class="hd"]/a/@href'))performers = ''.join(li.xpath('string(./div/div[@class="info"]/div[@class="bd"]/p[1])'))pattern = re.compile('\n+|\s+')performers = re.sub(pattern=pattern, repl='', string=performers)score = float(''.join(li.xpath('./div/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')))quote = ''.join(li.xpath('./div/div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()'))tem = (self.start_id, name, href, performers, score, quote)movies_tuple.append(tem)print(self.start_id, name, href, performers, score, quote, sep=" ")self.start_id += 1except:continuereturn tuple(movies_tuple)def create_table(self, table_name: str) -> NoReturn:"""在mysql數據庫中創建表table_name:str類型，要創建表的表名"""sql_create_table = "create table if not exists {}(\ID int ,\mv_name varchar(50),\href varchar(50),\performers varchar(300),\score decimal(3, 1),\quote varchar(50), \primary key (ID)\) ENGINE=INNODB DEFAULT CHARSET='utf8mb4' COLLATE='utf8mb4_unicode_ci'".format(table_name)self.my_cursor.execute(sql_create_table)def insert_to_mysql(self, table_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組中的所有電影插入到表中table_name:str類型，要插入信息的表的表名movies_tuple:Tuple[Tuple]類型，每一個元素也是元組，其中包含一個電影的所有信息"""sql_insert = "insert into {} values (%s, %s, %s, %s, %s, %s)".format(table_name)self.my_cursor.executemany(sql_insert, movies_tuple)self.conn.commit()def append_to_MV_list(self, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將電影元組中的所有電影添加到所有電影列表movies_tuple:Tuple[Tuple]類型，要加入的電影元組"""for movie in movies_tuple:self.all_movies_list.append(movie)def writer_into_csv(self, file_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組中的電影寫入csv文件file_name:str類型，要創建的csv文件的文件名movies_tuple:Tuple[Tuple]類型，要寫入的電影元組"""headers = ['編號', '電影名稱', '電影鏈接', '演員信息', '豆瓣評分', '引述']with open(file_name, 'w', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(headers)writer.writerows(movies_tuple)def writer_into_txt(self, file_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組寫入到txt文件中file_name:str類型，要創建的txt文件名movies_tuple:Tuple[Tuple]類型，要寫入的電影元組"""headers = ['編號', '電影名稱', '電影鏈接', '演員信息', '豆瓣評分', '引述']headers = ' '.join(headers)with open(file_name, 'w', encoding='utf-8') as f:f.write(headers+'\n')for movie in movies_tuple:movie = list(movie)movie[0] = str(movie[0])movie[4] = str(movie[4])movie = str(' '.join(movie))f.write(movie+'\n')def get_next_page_url(self, html: str) -> str:"""從html源碼中獲取下一頁的鏈接html:str類型，獲取下一頁的html源碼return:str類型，構造出來的下一頁的url"""e = etree.HTML(html, etree.HTMLParser())url = ''.join(e.xpath('//span[@class="next"]/a/@href'))if url:next_page_url = 'https://movie.douban.com/top250{}'.format(url)return next_page_urlelse:return ''if __name__ == '__main__':"""程序入口"""bouban = bouban_Top250()url = 'https://movie.douban.com/top250?start=0&filter='bouban.create_table('douban')while url:html = bouban.send_request(url)url = bouban.get_next_page_url(html)movies_tuple = bouban.parse_html(html)bouban.append_to_MV_list(movies_tuple)time.sleep(1)all_movies_tuple = tuple(bouban.all_movies_list)bouban.insert_to_mysql('douban', all_movies_tuple)bouban.writer_into_txt('douban.txt', all_movies_tuple)bouban.writer_into_csv('douban.csv', all_movies_tuple)

準備工作

安裝好程序中用到的第三方庫
安裝好mysql,并將mysql的服務打開
在__init__方法初始化中，將mysql的用戶名和密碼、數據庫更改為自己的，特別是端口號，因為我的電腦中有兩個不同的mysql版本，所以我用的端口號是3307
確保自己的電腦有網
認真看代碼，注釋中都寫了代碼的功能，有一些代碼看不懂要去查一查
我寫本文的日期是2021.03 ，豆瓣更新反爬蟲可能會導致爬取無效！

結果展示

心得

re.sub()方法真是坑，它會將替換后的文本返回，不會直接對原來的文本做更改，弄得我花了幾十分鐘
將文本寫入txt文件中不會自動換行，還要自己加換行符，害得我又刪除->更改->刪除…
將文本寫入txt文件中不指定編碼方式會導致亂碼，我去
你看看下面的結果：

a1 = ((1, 2), (3, 4)) a2 = (('a', 'b')) a3 = [1, 2] a4 = [(1, 2)]a1 + a4 = ? a4.append(a1) = ? a3 + a4 = ? 我又新建了好幾個文件來實驗，好煩

從編寫到完成，我的mysql中的表已經刪除了不少于20次

總結

以上是生活随笔為你收集整理的爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： AMD内存条：稳定超频、性价比高、细节出
下一篇：修改Mysql表中自增字段的初始值

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库

項目源碼

準備工作

結果展示

心得

總結