日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python网络数据采集2-wikipedia

發布時間:2025/4/16 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python网络数据采集2-wikipedia 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python網絡數據采集2-wikipedia

隨機鏈接跳轉

獲取維基百科的詞條超鏈接,并隨機跳轉。可能側邊欄和低欄會有其他鏈接。這不是我們想要的,所以定位到正文。正文在id為bodyContent的div標簽里。

import random import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}start_url = '/wiki/Wiki'def get_links(url):r = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordslink_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^/]*$'))return link_listlinks = get_links(start_url) while len(links) > 0:# 隨機選擇一個鏈接link = random.choice(links).get('href')print(link)# 新的詞條覆蓋了原來的超鏈接,一直搜尋links = get_links(link) /wiki/Personal_wiki /wiki/Database_management_system /wiki/Netezza /wiki/C%2B%2B /wiki/C%2B%2B#Standardization /wiki/ISO_9984 /wiki/Georgian_script ...

從首頁開始,將首頁的所有詞條放入集合中(去重),再遍歷集合,從集合中的鏈接遞歸搜索。

import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}pages = set()def get_links(url):global pagesr = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordslink_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^:/]*$'))for link in link_list:if link['href'] not in pages:new_page = link['href']pages.add(new_page)print(new_page)get_links(new_page)if __name__ == '__main__':# 空字符串表示,url為wiki主頁https://en.wikipedia.orgget_links('')

獲取詞條的標題、正文

標題在h1標簽中,正文在id為mw-content-text的div標簽中。

import re import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}pages = set()def get_links(url):global pagesr = requests.get('https://en.wikipedia.org' + url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# /wiki/some_wordstry:print(soup.h1.string)# 只打印第一段print(soup.find(id='mw-content-text').find('p').text)except AttributeError:print('頁面缺少一些屬性。')link_list = soup.find('div', id='bodyContent').find_all('a', href=re.compile(r'^/wiki/[^:/]*$'))for link in link_list:if link['href'] not in pages:new_page = link['href']pages.add(new_page)print('----------\n' + new_page)get_links(new_page)if __name__ == '__main__':# 空字符串表示,url為wiki主頁https://en.wikipedia.orgget_links('') Main Page Noye's Fludde is a one-act opera written largely for young amateur performers, created by the British composer Benjamin Britten. First performed in 1958 at the annual Aldeburgh Festival, it is based on the 15th-century Chester "mystery" play which recounts the biblical story of Noah, the flood and the ark. Britten had written numerous works for mixed ... -------- /wiki/Wikipedia Wikipedia Wikipedia (/?w?k??pi?di?/?(?listen) or /?w?ki?pi?di?/?(?listen) WIK-i-PEE-dee-?) is a free online encyclopedia with the aim to allow anyone to edit articles.[3] Wikipedia is the largest and most popular general reference work on the Internet[4][5][6] and is ranked among the ten most popular websites.[7] Wikipedia is owned by the nonprofit Wikimedia Foundation.[8][9][10] -------- /wiki/Main_Page ...

尋找外鏈

從https://www.oreilly.com開始不斷尋找外鏈,如果某個頁面沒有外鏈,則進入該頁面的某個內鏈,再重新找外鏈。感覺這個例子不是很好,因為從其他外鏈又可能回到初始頁面。

import re import random import requests from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'' Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193'}def get_random_external_link(start_page):r = requests.get(start_page, headers=headers)soup = BeautifulSoup(r.text, 'lxml')# 返回分割地址的第一個元素,一般是主頁的地址ex_links = get_external_links(soup, split_address(start_page)[0])# 如果該頁面沒有外鏈,則獲取內鏈,再從內鏈里隨機選取一個,遞歸,直到獲取到外鏈為止。if len(ex_links) == 0:internal_links = get_internal_links(soup, split_address(start_page)[0])return get_random_external_link(random.choice(internal_links))else:return random.choice(ex_links)def get_internal_links(bs, include_url):internal_links = []# 找出所有以為'/'開頭的鏈接,此為內鏈in_links = bs.find_all('a', href=re.compile(r'^/|' + include_url))for link in in_links:if link['href'] not in internal_links:internal_links.append(link['href'])return internal_linksdef get_external_links(bs, exclude_url):external_links = []# 找出所有以http、https開頭的鏈接,且不含內鏈字符的,此為外鏈,(?!...)表示不包含ex_links = bs.find_all('a', href=re.compile(r'^(https|http)((?!' + exclude_url + ').)*$'))for link in ex_links:if link['href'] not in external_links:external_links.append(link['href'])return external_linksdef split_address(address):address_parts = []if address.split(':')[0] == 'http':address_parts = address.replace('http://', '').split('/')elif address.split(':')[0] == 'https':address_parts = address.replace('https://', '').split('/')return address_parts# 只搜索外鏈 def follow_external_only(url):external_link = get_random_external_link(url)print(external_link)follow_external_only(external_link)all_ex_links = set() all_in_links = set()# 獲得所有外鏈和內鏈,并打印了外鏈 def get_all_external_links(url):r = requests.get(url, headers=headers)soup = BeautifulSoup(r.text, 'lxml')internal_links = get_internal_links(soup, split_address(url)[0])external_links = get_external_links(soup, split_address(url)[0])for link in external_links:if link not in all_ex_links:all_ex_links.add(link)print(link)for link in internal_links:if link not in all_in_links:all_in_links.add(link)get_all_external_links(link)if __name__ == '__main__':# follow_external_only('https://www.oreilly.com')get_all_external_links('https://www.oreilly.com') https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170601+nav http://shop.oreilly.com/ http://members.oreilly.com https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170505+homepage+get+started+now https://www.safaribooksonline.com/accounts/login/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170203+homepage+sign+in https://www.safaribooksonline.com/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+get+started+now https://www.safaribooksonline.com/public/free-trial/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+start+free+trial https://www.safaribooksonline.com/accounts/login/?utm_medium=content&utm_source=oreilly.com&utm_campaign=lgen&utm_content=20170710+homepage+sign+in ...

上面的代碼經常會出錯,可能是正則表達式匹配的原因,也有可能是網絡原因。


by @sunhaiyu

2017.7.14

轉載于:https://www.cnblogs.com/sun-haiyu/p/7181771.html

總結

以上是生活随笔為你收集整理的Python网络数据采集2-wikipedia的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲清纯唯美 | 免费观看黄色一级视频 | 亚洲深夜福利 | 做爰视频毛片视频 | 男人天堂网在线视频 | 精品视频一区二区在线 | 自拍偷拍三级 | 影音先锋男人资源网站 | 国产又粗又深又猛又爽又在线观看 | 国产精品久久久久久久久久免费 | 嫩草av在线| 在线免费观看黄色小视频 | 国产精品xx| 久久久久无码国产精品一区 | 亚洲一区二区国产精品 | 国产精品色哟哟 | 黑人粗进入欧美aaaaa | 天天艹夜夜艹 | 娇妻玩4p被三个男人伺候电影 | 国产免费一区二区三区在线播放 | 亚洲在线激情 | 人人艹人人爽 | 久久成人免费电影 | 欧美视频h| wwwav视频在线观看 | 手机在线看片日韩 | 成人性生交大片免费看中文 | 成人免费在线视频网站 | 亚洲熟女一区 | 熟妇五十路六十路息与子 | 高清在线一区二区 | 怒海潜沙秦岭神树 | 欧美色图888| 少妇2做爰hd韩国电影 | 欧美激情视频一区二区三区不卡 | www麻豆| 91精品国产高清 | 天天操夜夜拍 | 91热久久| av午夜在线| 国产麻豆一区二区 | 久久精品国产亚洲av麻豆蜜芽 | h视频网站在线观看 | 99精品人妻国产毛片 | 99草在线视频 | 国产黄色免费大片 | 国产成人精品二区三区亚瑟 | 亚洲国产精品一区二区三区 | 村姑电影在线播放免费观看 | 婷婷视频网| 91网站免费在线观看 | 四虎在线免费观看 | 天天撸天天射 | 不卡的一区二区 | 日韩欧美在线中文字幕 | 国产伦理久久精品久久久久 | 插插插综合 | 成年人免费大片 | 欧美一卡二卡 | 蜜桃av在线 | 久久精品国产99久久不卡 | 午夜激情电影在线观看 | 亚洲国产大片 | 日韩经典一区二区 | 国产区一区二区三区 | 亚洲成人基地 | 国语对白清晰刺激对白 | 一本到免费视频 | 91艹| 亚洲无人区小视频 | 国产自产在线 | 欧美日韩黄色网 | 少妇裸体淫交视频免费看高清 | 日本乱偷人妻中文字幕在线 | 国产高清视频在线免费观看 | 久久男人的天堂 | 亚洲精品色午夜无码专区日韩 | 潘甜甜在线| 色网站在线播放 | 日本亚洲黄色 | 日本免费一区二区三区四区五六区 | 国产精品国产三级国产aⅴ9色 | 91丨porny丨海角社区 | 欧美日韩一级黄色片 | 李丽珍裸体午夜理伦片 | www亚洲一区| 深夜福利免费观看 | 91精品国产综合久久精品 | av在线短片 | 深夜免费在线视频 | 国产成人超碰人人澡人人澡 | 在线观看网站污 | 中文字幕在线播放第一页 | 久久久久亚洲av成人片 | 日本成人在线免费视频 | 91操视频| 久久泄欲网| 精品一区二区三区在线观看 | 老司机免费精品视频 |