當(dāng)前位置：首頁 > 前端技术 > vue >内容正文

vue

app.vue里使用data_Python爬虫使用正则爬取网站，正则都不会就别玩爬虫了！

發(fā)布時間：2025/3/21 vue 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 app.vue里使用data_Python爬虫使用正则爬取网站，正则都不会就别玩爬虫了！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文章的所有代碼和相關(guān)文章，僅用于經(jīng)驗技術(shù)交流分享，禁止將相關(guān)技術(shù)應(yīng)用到不正當(dāng)途徑，濫用技術(shù)產(chǎn)生的風(fēng)險與本人無關(guān)。本文章是自己學(xué)習(xí)的一些記錄。歡迎各位大佬點評！

源碼在GitHub上面，且相關(guān)介紹更加全面。鏈接如下https://github.com/zhazhalin/doubanTop250Spider.git或者點擊如下鏈接github鏈接地址首先今天是第一天寫博客，感受到了博客的魅力，博客不僅能夠記錄每天的代碼學(xué)習(xí)情況，并且可以當(dāng)作是自己的學(xué)習(xí)筆記，以便在后面知識點不清楚的時候前來復(fù)習(xí)。這是第一次使用爬蟲爬取網(wǎng)頁，這里展示的是爬取豆瓣電影top250的整個過程，歡迎大家指點。

這里我只爬取了電影鏈接和電影名稱，如果想要更加完整的爬取代碼，請聯(lián)系我。qq 1540741344 或者點擊github鏈接地址歡迎交流

開發(fā)工具： pycharm、chrome分析網(wǎng)頁在開發(fā)之前你首先要去你所要爬取的網(wǎng)頁提取出你要爬取的網(wǎng)頁鏈接，并且將網(wǎng)頁分析出你想要的內(nèi)容。

在開發(fā)之前首先要導(dǎo)入幾個模塊，模塊描述如下，具體不知道怎么導(dǎo)入包的可以看我下一篇內(nèi)容

首先定義幾個函數(shù)，便于將各個步驟的工作分開便于代碼管理，我這里是分成了7個函數(shù)，分別如下：@主函數(shù)入口

if __name__=="__main__": #程序執(zhí)行入口main()

@捕獲網(wǎng)頁html內(nèi)容 askURL(url)這里的head的提取是在chrome中分析網(wǎng)頁源碼獲得的，具體我也不做過多解釋，大家可以百度

def askURL(url): #得到指定網(wǎng)頁信息的內(nèi)容 #爬取一個網(wǎng)頁的數(shù)據(jù)# 用戶代理，本質(zhì)上是告訴服務(wù)器，我們是以什么樣的機器來訪問網(wǎng)站，以便接受什么樣的水平數(shù)據(jù)head={"User-Agent":"Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89 Safari / 537.36"}request=urllib.request.Request(url,headers=head) #request對象接受封裝的信息，通過urllib攜帶headers訪問信息訪問urlresponse=urllib.request.urlopen(request) #用于接收返回的網(wǎng)頁信息html=response.read().decode("utf-8") #通過read方法讀取response對象里的網(wǎng)頁信息，使用“utf-8”return html #返回捕獲的網(wǎng)頁內(nèi)容，此時還是未處理過的

@將baseurl里的內(nèi)容進行逐一解析 getData(baseURL)這里面的findlink和findname是正則表達式，可以首先定義全局變量

findlink=r'<a class="" href="(.*?)"' findname=r'<span class="title">(.*?)</span>'

def getData(baseURL):

dataList=[] #初始化datalist用于存儲獲取到的數(shù)據(jù)

for i in range(0,10):

url=baseURL+str(i*25)

html=askURL(url) #保存獲取到的源碼

soup=BeautifulSoup(html,"html.parser") #對html進行逐一解析，使用html.parser解析器進行解析

for item in soup.find_all("div",class_="item"): #查找符合要求的字符串，形成列表，find_all是查找所有的class是item的div

data=[] #初始化data，用于捕獲一次爬取一個div里面的內(nèi)容

item=str(item) #將item數(shù)據(jù)類型轉(zhuǎn)化為字符串類型

# print(item)

link=re.findall(findlink,item)[0] #使用re里的findall方法根據(jù)正則提取item里面的電影鏈接

data.append(link) #將網(wǎng)頁鏈接追加到data里

name=re.findall(findname,item)[0] #使用re里的findall方法根據(jù)正則提取item里面的電影名字

data.append(name) #將電影名字鏈接追加到data里

# print(link)

# print(name)

dataList.append(data) #將捕獲的電影鏈接和電影名存到datalist里面

return dataList #返回一個列表，里面存放的是每個電影的信息

print(dataList)

@保存捕獲的數(shù)據(jù)到excel saveData(dataList,savepath)

def saveData(dataList,savepath): #保存捕獲的內(nèi)容到excel里，datalist是捕獲的數(shù)據(jù)列表，savepath是保存路徑book=xlwt.Workbook(encoding="utf-8",style_compression=0)#初始化book對象，這里首先要導(dǎo)入xlwt的包sheet=book.add_sheet("test",cell_overwrite_ok=True) #創(chuàng)建工作表col=["電影詳情鏈接","電影名稱"] #列名for i in range(0,2):sheet.write(0,i,col[i]) #將列名逐一寫入到excelfor i in range(0,250):data=dataList[i] #依次將datalist里的數(shù)據(jù)獲取for j in range(0,2):sheet.write(i+1,j,data[j]) #將data里面的數(shù)據(jù)逐一寫入book.save(savepath)

@保存捕獲的數(shù)據(jù)到數(shù)據(jù)庫

def saveDataDb(dataList,dbpath):initDb(dbpath) #用一個函數(shù)初始化數(shù)據(jù)庫conn=sqlite3.connect(dbpath) #初始化數(shù)據(jù)庫cur=conn.cursor() #獲取游標for data in dataList: for index in range(len(data)): data[index]='"'+data[index]+'" ' #將每條數(shù)據(jù)都加上""#每條數(shù)據(jù)之間用，隔開，定義sql語句的格式sql='''insert into test(link,name) values (%s) '''%','.join (data)cur.execute(sql) #執(zhí)行sql語句conn.commit() #提交數(shù)據(jù)庫操作conn.close()print("爬取存入數(shù)據(jù)庫成功！")

@初始化數(shù)據(jù)庫 initDb(dbpath)

def initDb(dbpath):conn=sqlite3.connect(dbpath)cur=conn.cursor()sql='''create table test(id integer primary key autoincrement,link text,name varchar )'''cur.execute(sql)conn.commit()cur.close()conn.close()

@main函數(shù)，用于調(diào)用其他函數(shù) main()

def main():dbpath="testSpider.db" #用于指定數(shù)據(jù)庫存儲路徑savepath="testSpider.xls" #用于指定excel存儲路徑baseURL="https://movie.douban.com/top250?start=" #爬取的網(wǎng)頁初始鏈接dataList=getData(baseURL)saveData(dataList,savepath)saveDataDb(dataList,dbpath)

你學(xué)會了嗎獲取加群加群：1136192749

總結(jié)

以上是生活随笔為你收集整理的app.vue里使用data_Python爬虫使用正则爬取网站，正则都不会就别玩爬虫了！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： laravel 分页php_larave
下一篇： get vue 和set 用法_深入剖析

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

vue

app.vue里使用data_Python爬虫使用正则爬取网站，正则都不会就别玩爬虫了！

總結(jié)