日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫-协和数据

發布時間:2024/1/8 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫-协和数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Day1-獲取協和首頁其中一個子項的所有a標簽

介紹:
樣本信息:協和
處理內容:按索引字符串,遍歷當前頁面及其相關頁面,當頁面中包含索引值時,返回相應的地址。用于對頁面的數據檢索。

part1 帶請求頭爬取數據

import requests from bs4 import BeautifulSoupheader = {"user-agent":"你自己的信息" }res = requests.get('https://www.pumch.cn/index.html',header) html = res.textsoup = BeautifulSoup(html,'html.parser') items=soup.find('ul',class_='links').find_all('li')

part2 獲取首頁信息

#獲取協和首頁鏈接信息 def get_home():home = []for item in items:url='https://www.pumch.cn'name = item.find('a').get('href').strip()str_list = list(name)if(name.find(url)< 0):str_list.insert(0, url)str = ''.join(str_list)home.append(str)else:home.append(name)return home #print(get_home())

輸出數據:

['https://www.pumch.cn/patient.html', 'https://www.pumch.cn/learning.html', 'https://www.pumch.cn/centenary.html', 'https://www.pumch.cn/staff.html', 'https://www.pumch.cn/en.html']

part3 獲取其中一頁的所有a標簽

但在這里獲取出的a標簽并不是完全可以的,還需要進行加工

res_learning = requests.get(get_home()[1],header)html_learning = res_learning.text soup1 = BeautifulSoup(html_learning)tags=soup1.find_all('a') #print(tags) #for tag in tags: # print(tag.get('href'))

輸出結果展示特征部分:

/html/index.html?scene_id=51117035 /register.html http://telemedicine.pumch.cn http://paper.pumch.cn/ http://mjpumch.cbpt.cnki.net/WKC3/WebPublication javascript:void(0); javascript:; # None ......

part4 數據加工

處理規則:
1.帶javascript的數據、None的數據、#的不要,
2.以http:開頭的保留
3.字符串中不包含https://www.pumch.cn的數據,且不滿足以兩個條件的在首位置插入https://www.pumch.cn

##根據關鍵字查找 def get_learn():home = []for tag in tags:url='https://www.pumch.cn'if(tag.get('href')!=None):learning_a = tag.get('href')str_list = list(learning_a)#包含javascript、#、None什么都不處理if((learning_a.find('javascript:;') >= 0) | (learning_a.find('javascript:void(0);') >= 0) | (learning_a.find('#') >= 0)):home = home#處理不包含url頭的數據elif((learning_a.find(url)< 0)&(learning_a.find('http://') < 0)):str_list.insert(0, url)str = ''.join(str_list)print(str)home.append(str)else:home.append(learning_a)return home#print(tag.get('href')) print(get_learn())

輸出結果:

https://www.pumch.cn/register.html https://www.pumch.cn/visitinfo.html https://www.pumch.cn/reportquery.html https://www.pumch.cn/centenary.html https://www.pumch.cn/learning.html https://www.pumch.cn/research/gudie.html https://www.pumch.cn/research/gudie.html https://www.pumch.cn/single/21556.html https://www.pumch.cn/trend.html https://www.pumch.cn/notice.html ......

總結

以上是生活随笔為你收集整理的爬虫-协和数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。