python中bs4库_python系统学习2——beautiful soup库(bs4库)学习
beautiful?soup庫作為python第三方庫,可以對html語言進行很好的樹形解析,“美味湯”的直譯也是在說能夠把文檔像一鍋湯一樣進行調(diào)制。
beautiful?soup庫的基本元素有:
基本元素
說明
Tag
標簽,最基本的信息組織單元
Name
標簽的名字?tag.name
Attributes
標簽的屬性(字典形式) tag.attrs
NavigableString
標簽內(nèi)非屬性字符串?tag.string
Comment
標簽內(nèi)注釋
beautiful?soup庫的內(nèi)容遍歷方法
下行遍歷: .contents 獲得子節(jié)點的列表(可以用列表的方式進行處理)
.children ? ? ? ? 獲得子節(jié)點的迭代類型,用于循環(huán)遍歷子節(jié)點
for child in soup.body.children://遍歷兒子節(jié)點
print(child)
.descendants? ? ? ?獲得子孫節(jié)點的迭代類型,包含所有子孫節(jié)點,用于循環(huán)遍歷
上行遍歷: .parent ? ? ? ? ? 返回節(jié)點的父親標簽
.parents? ? ? ? ? ? ? ? 返回節(jié)點先輩標簽,可以用于循環(huán)遍歷 (在遍歷時會遍歷到 soup本身,soup本身沒有先輩標簽)
平行遍歷: .next_sibling? ? ? ? ?返回按照html文本順序的下一個平行節(jié)點標簽
.previous_sibling? 返回按照html文本順序的上一個平行節(jié)點標簽
.next_siblings ? ? 迭代類型,返回按照html文本順序的后續(xù)所有平行節(jié)點標簽
.previous_siblings?迭代類型,返回按照html文本順序的前續(xù)所有平行節(jié)點標簽
最后有一個prettify方法可以對html文檔或者html標簽進行格式化處理。
總結(jié)
以上是生活随笔為你收集整理的python中bs4库_python系统学习2——beautiful soup库(bs4库)学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 树结构 sqlalchem
- 下一篇: 安装成功后python报错_python