python中bs4库_python系统学习2——beautiful soup库(bs4库)学习
beautiful?soup庫(kù)作為python第三方庫(kù),可以對(duì)html語(yǔ)言進(jìn)行很好的樹形解析,“美味湯”的直譯也是在說能夠把文檔像一鍋湯一樣進(jìn)行調(diào)制。
beautiful?soup庫(kù)的基本元素有:
基本元素
說明
Tag
標(biāo)簽,最基本的信息組織單元
Name
標(biāo)簽的名字?tag.name
Attributes
標(biāo)簽的屬性(字典形式) tag.attrs
NavigableString
標(biāo)簽內(nèi)非屬性字符串?tag.string
Comment
標(biāo)簽內(nèi)注釋
beautiful?soup庫(kù)的內(nèi)容遍歷方法
下行遍歷: .contents 獲得子節(jié)點(diǎn)的列表(可以用列表的方式進(jìn)行處理)
.children ? ? ? ? 獲得子節(jié)點(diǎn)的迭代類型,用于循環(huán)遍歷子節(jié)點(diǎn)
for child in soup.body.children://遍歷兒子節(jié)點(diǎn)
print(child)
.descendants? ? ? ?獲得子孫節(jié)點(diǎn)的迭代類型,包含所有子孫節(jié)點(diǎn),用于循環(huán)遍歷
上行遍歷: .parent ? ? ? ? ? 返回節(jié)點(diǎn)的父親標(biāo)簽
.parents? ? ? ? ? ? ? ? 返回節(jié)點(diǎn)先輩標(biāo)簽,可以用于循環(huán)遍歷 (在遍歷時(shí)會(huì)遍歷到 soup本身,soup本身沒有先輩標(biāo)簽)
平行遍歷: .next_sibling? ? ? ? ?返回按照html文本順序的下一個(gè)平行節(jié)點(diǎn)標(biāo)簽
.previous_sibling? 返回按照html文本順序的上一個(gè)平行節(jié)點(diǎn)標(biāo)簽
.next_siblings ? ? 迭代類型,返回按照html文本順序的后續(xù)所有平行節(jié)點(diǎn)標(biāo)簽
.previous_siblings?迭代類型,返回按照html文本順序的前續(xù)所有平行節(jié)點(diǎn)標(biāo)簽
最后有一個(gè)prettify方法可以對(duì)html文檔或者h(yuǎn)tml標(biāo)簽進(jìn)行格式化處理。
總結(jié)
以上是生活随笔為你收集整理的python中bs4库_python系统学习2——beautiful soup库(bs4库)学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 树结构 sqlalchem
- 下一篇: 安装成功后python报错_python