當前位置：首頁 >

python爬虫笔记（三）:提取（二）

發布時間：2023/12/15 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫笔记（三）:提取（二）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

信息組織和提取方法、

信息標記的三種形式

HTML的信息標記

有三種信息標記方式：XML、JSON、YAML

xml

2. json

3. yaml

三種信息標記形式的比較

三種實例排列

比較

信息提取的一般方法

從標記的信息中提取要關注的內容

實例：提取html中的所有url鏈接

import requests from bs4 import BeautifulSoup as bsr = requests.get("https://python123.io/ws/demo.html") demo = r.text #print(demo)soup = bs(demo, 'html.parser') #print(soup.prettify()) #print(soup.find_all('a')) for link in soup.find_all('a'): #尋找所有的外部鏈接print(link.get('href'))’復制代碼

基于HTML內容的查找方法

import requests from bs4 import BeautifulSoup as bs import re #正則表達庫r = requests.get("https://python123.io/ws/demo.html") demo = r.text #print(demo)soup = bs(demo, 'html.parser') #print(soup.prettify()) #print(soup.find_all('a')) for tag in soup.find_all(re.compile('b')):#查找以b開頭的所有標簽print(tag.name) 復制代碼

轉載于:https://juejin.im/post/5a9cae0c6fb9a028ce7b148c

總結

以上是生活随笔為你收集整理的python爬虫笔记（三）:提取（二）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：移动端HTML响应式布局之神奇的pt（自
下一篇： Python面向对象-概念、类、实例