當前位置:
首頁 >
python爬虫笔记(三):提取(二)
發布時間:2023/12/15
24
豆豆
生活随笔
收集整理的這篇文章主要介紹了
python爬虫笔记(三):提取(二)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
信息組織和提取方法、
信息標記的三種形式
HTML的信息標記 有三種信息標記方式:XML、JSON、YAML三種信息標記形式的比較
三種實例排列
比較信息提取的一般方法
從標記的信息中提取要關注的內容
實例:提取html中的所有url鏈接 import requests from bs4 import BeautifulSoup as bsr = requests.get("https://python123.io/ws/demo.html") demo = r.text #print(demo)soup = bs(demo, 'html.parser') #print(soup.prettify()) #print(soup.find_all('a')) for link in soup.find_all('a'): #尋找所有的外部鏈接print(link.get('href'))’復制代碼基于HTML內容的查找方法
import requests from bs4 import BeautifulSoup as bs import re #正則表達庫r = requests.get("https://python123.io/ws/demo.html") demo = r.text #print(demo)soup = bs(demo, 'html.parser') #print(soup.prettify()) #print(soup.find_all('a')) for tag in soup.find_all(re.compile('b')):#查找以b開頭的所有標簽print(tag.name) 復制代碼轉載于:https://juejin.im/post/5a9cae0c6fb9a028ce7b148c
總結
以上是生活随笔為你收集整理的python爬虫笔记(三):提取(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 移动端HTML响应式布局之神奇的pt(自
- 下一篇: 努比亚nubia Pad 3D前后四摄: